【安全资讯】MINJA攻击：通过用户交互操控AI模型记忆

安恒恒脑 2025-03-11 19:02:58 34人浏览

概要：

随着人工智能模型在用户交互中的应用日益广泛，记忆功能的引入虽然提升了用户体验，但也带来了潜在的安全隐患。最近，来自美国密歇根州立大学、乔治亚大学和新加坡管理大学的研究人员提出了一种名为MINJA的攻击方法，能够通过客户端交互操控AI模型的记忆，给用户带来严重的安全威胁。

主要内容：

MINJA攻击的核心在于通过与AI代理的正常交互来影响其他用户的模型操作。研究人员发现，传统的攻击方式通常假设记忆库在攻击者控制之下，而MINJA则展示了只需普通用户交互即可发起攻击的可能性。这意味着，任何使用同一聊天机器人的用户都可能轻易地影响其他用户的任务执行。

在实验中，研究团队对基于OpenAI的GPT-4和GPT-4o的三个AI代理进行了测试，包括一个医疗代理和一个定制的问答代理。攻击者通过发送包含误导性信息的提示，逐步操控模型的记忆。例如，在医疗代理中，攻击者可以使得关于患者30789的问题被错误地关联到患者4269的信息，从而导致错误的医疗建议。

研究表明，MINJA攻击的成功率超过95%，并且由于其设计的提示看似合理，能够有效规避检测机制。这一发现揭示了当前AI代理在记忆安全方面的重大漏洞，强调了在构建和部署AI代理时，必须加强对记忆安全的关注。