友情链接(独立内容)

muzhi7777
V2EX  ›  技术栈

网络安全 想做一些恶意 butler agent 方向的论文,应该使用什么开源模型模型

  •  
  •   muzhi7777 · Jun 30 · 266 views
    最近想做一个 agent security 方向的小论文 / 课程 project ,主题大概是 malicious butler agent (恶意管家模型)
    设想是:user agent 想买东西或点单,中间有一个 butler agent 帮它调用 store agent / MCP tool 。如果这个 butler 被恶意控制,它可能会篡改商品排序、误导价格解释、弱化预算约束,最终让 user agent 做出不符合用户意图的选择。
    想请教:
    1. 有没有类似论文或 benchmark 可以参考?
    2. 闭源模型好些不得行,有啥开源模型推荐?
    1 replies    2026-07-01 08:54:26 +08:00
    haoyunyinglai
        1
    haoyunyinglai  
       17h 35m ago
    有点像中间人攻击?如果是这个思路的话,我推荐试一试 deepseek-R1 或者基于这个模型进行蒸馏得到的无道德限制的模型
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1071 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 18:30 · PVG 02:30 · LAX 11:30 · JFK 14:30
    ♥ Do have faith in what you're doing.