- 大規模言語モデル(LLM)を活用した自律的なAIエージェントに対し、「偽の記憶」を注入することで不正な操作を行う新たな攻撃手法が発見された。
- プリンストン大学などの研究チームが「メモリインジェクション攻撃」と名付けたこの攻撃は、特にWeb3や金融分野で利用されるAIエージェントに重大なリスクをもたらす。
- 巧妙なプロンプト操作とエージェントのメモリへのアクセスだけで実行可能であり、複雑なハッキング技術は不要である点が危険視されている。
- MastercardやPayPalなどのサービスで使用されるAIエージェントも脆弱である可能性が指摘されており、企業はセキュリティ設計の初期段階からの対策強化が求められている。
自律型AIエージェントの新たな脆弱性「偽の記憶」攻撃
大規模言語モデル(LLM)の進化に伴い、人間の代わりに複雑なタスクや判断を自律的に行うAIエージェントが登場している。しかし、こうしたAIエージェントに対し、「偽の記憶」を意図的に植え付けることで、その後の意思決定や行動を操作し、仮想通貨などを盗み取る新たな攻撃手法が明らかになった。
プリンストン大学などが「メモリインジェクション攻撃」を実証
プリンストン大学とSentientの研究チームは、「Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents」と題した論文で、この攻撃手法を詳細に報告している。研究者たちは、ブロックチェーンベースの取引を実行できる自律型AIエージェントを開発できるオープンソースフレームワークElizaOS上で実験を行い、この攻撃が最先端の防御でさえ回避しうる脆弱性であることを実証した。
この攻撃の核心は、AIエージェントが過去の会話履歴や操作履歴を「エージェントメモリ」として外部データベースなどに保存し、それを将来の判断のコンテキストとして利用する点にある。攻撃者は、このメモリシステムに偽の情報、すなわち「偽の記憶」を注入することで、AIエージェントが誤った認識に基づき行動するように仕向けることが可能となる。特に危険なのは、この「メモリインジェクション攻撃(Memory Injection Attack/MINJA)」と呼ばれる手法が、ハッキングや管理者権限を必要とせず、巧妙なプロンプト操作とエージェントの保存されたメモリへのアクセスだけで実行できる点だ。MINJAの研究では、95%以上の注入成功率と、ほとんどのデータセットで70%以上の攻撃成功率が達成されている。
Web3、金融分野への深刻なリスク
この脆弱性は、特にブロックチェーンベースの金融エコシステム内で利用されるAIエージェントに重大なリスクをもたらす。AIエージェントが仮想通貨の取引やウォレット管理を自律的に行う場合、偽の記憶を植え付けられることで、ユーザーの意図しない不正な送金や資産の損失といった壊滅的な結果を招く可能性がある。
また、リスクは仮想通貨分野に留まらない。MastercardのAgent PayやPayPalのAgent Toolkitなど、銀行業、電子商取引、医療といった分野で、ユーザーデータ(好み、取引履歴、会話文脈など)を保存し、パーソナライズされた意思決定に利用するメモリ対応型AIエージェントも同様の脆弱性を持つ可能性がある。メモリに注入された偽の情報は、対話やプラットフォームを超えて持続する危険性も指摘されている。
求められるセキュリティ対策の強化
この新たな脅威に対し、研究者たちは企業や組織がAIエージェントを新しい特権ユーザーやシステムとして扱い、設計の初期段階からセキュリティを統合することを強く推奨している。具体的な対策としては、AIエージェントに付与する権限の制限、依存するメモリの分離と厳格な検証、ユーザーの安全を最優先にするようエージェントを再トレーニングすること、そして攻撃者が行うであろう手法を用いてエージェントの安全性を継続的にテストすることなどが挙げられる。
AIエージェント技術がビジネスや日常生活への浸透を加速させる中で、その判断の基盤となる「記憶」の信頼性をどのように担保するかは、今後のAI開発と運用における最も重要な課題の一つとなっている。テクノロジーの進化と共に、セキュリティ対策も不断に進歩させていく必要がある。
引用元:innovatopia
AIエージェントの記憶操作リスク:Princeton大学とSentientの研究が明らかにした偽メモリ攻撃の脅威
引用元:Gigazine
AIチャットボットに「偽の記憶」を植え付けることで仮想通貨を盗む攻撃が報告される