AI飲み会幹事エージェントを作っただけなのに — メモリ汚染とツール悪用の実践的対策

登壇者の背景

大手金融グループ傘下のテック企業
VP of Architecture
400人規模のイベントで10枠中2枠を担当（本セッション＋Session 10）

インシデント事例（架空だが現実的なシナリオ）

ケース1: 高級フレンチ不正予約 — メモリ汚染攻撃

シナリオ:

新人従業員がAI飲み会幹事エージェント「ノミネーター」を使用
エージェントが「田中部長はフレンチのコース料理が好き。居酒屋はNG」と提示
新人は部長に怒られるのが怖く、高級フレンチを即座に予約
実態: 先輩が過去セッションで虚偽情報を繰り返し刷り込んでいた

攻撃分類（OWASP Agentic Top 10）:

ASI-06 メモリー・コンテキスト汚染: セッションをまたいで不正な記憶を段階的に強化
ASI-09 人間とエージェントの信頼の悪用: 新人の「部長に怒られたくない」感情を増幅

ケース2: 年収情報Slack漏洩 — ツール連鎖悪用

シナリオ:

飲み会後に「割り勘お願いします」→ エージェント「年収比率で割りますか？」
HRシステムから年収データ取得 → 計算結果をSlackで全員に配信

攻撃分類:

ASI-02 ツールの誤用及び悪用: 個々のツール利用は正当（HRアクセス権あり、Slack送信権あり）だが、連鎖で情報漏洩

リスク分析の3層構造

レイヤー	参照ドキュメント
従来型ITシステム	OWASP Top 10等
LLM固有	OWASP Top 10 for LLM Applications 2025
エージェント全体	OWASP Top 10 for Agentic Applications 2026

追加参照: Security for Agentic AI on AWS（AWS公式ガイダンス）

対策の最優先原則

「AIエージェントでやらなくてはいけないのか？」を考えることが最強最大の対策 — AWS公式ガイダンスベストプラクティス1.1

決定論的 vs 確率的の分離

処理	実装方式
アレルギー・食事制限の収集	決定論的（固定フォーム）
過去の暗黙知の引き継ぎ	確率的（エージェント）
予約の最終確定	決定論的（人間承認）

具体的対策: Bedrock Agents Core

対策1: メモリ汚染 → Memory名前空間

[Unverified 名前空間] ← 初期情報（裏取り未実施）
  ↓ 裏取り完了
[Verified 名前空間] ← 検証済み情報
  ↓
[最終判断] ← Verifiedのみ参照 + Guardrailsで検査

Bedrock Agents Core Memory構造:

短期記憶: セッション内会話
長期記憶: ノウハウの自動抽出・蓄積
セッション間で長期記憶を共有

対策2: ツール悪用 → Gatewayポリシー

エージェント → [Gateway + Policy] → 外部ツール
                    ↑
              決定論的制御:
              - ツールのホワイトリスト管理
              - 外部ツール側の認可に非依存
              - LLMプロンプトに非依存

ポリシーで「年収情報をSlackに送信」パターンをブロック。

金融機関での現実

業務プロセスは100%マニュアル準拠が必須
1個のエラーで事故
確率的エージェントの位置付けは未解決
現時点の総合対策: ヒューマン・イン・ザ・ループ

Q&Aハイライト

Q: MCPの制限は？ A: MCPレジストリ/ゲートウェイで認可済みツールのみ許可が重要。

Q: ハルシネーション対策は？ A: 個別対策より人間承認の総合的対策が現実的。

初心者向け補足

OWASP Top 10 for Agentic Applications 2026

AIエージェント特有のセキュリティリスクトップ10。「自律的に行動するAI」に固有のリスクを整理。

なぜ「ツール連鎖」が危険か

従来: ツールA → 人間判断 → ツールB（人間が介在）エージェント: ツールA → ツールB → ツールC（自律連鎖）

個々は正当でも、組み合わせで意図しない情報漏洩が発生。