SJ blog
security
A

信頼度ランク

S 公式ソース確認済み
A 成功実績多数・失敗例少数
B 賛否両論
C 動作未確認・セキュリティリスク高
Z 個人所感

MicrosoftがAIエージェント向けオープンソース「Agent Governance Toolkit」を公開——OWASP Agentic Top 10を全カバー、p99 0.1ms以下のランタイムポリシーエンジン

Microsoftが4月2日にAgent Governance Toolkitをオープンソース公開(MIT)。LangChain・CrewAI・Google ADK対応、p99 0.1ms以下のポリシー適用でOWASP Agentic AI Top 10を業界初の完全網羅。Python/TypeScript/Go/Rust/.NET対応。

一言結論

MicrosoftのAgent Governance Toolkitは、AIエージェントの全アクションをp99 0.1ms以下でインターセプトして検査するランタイムポリシーエンジン。OWASP Agentic AI Top 10を業界初の完全カバーを謳い、LangChain・CrewAI・Google ADKにフレームワーク非依存で統合できる。MIT License、9,500以上のテスト付き。AIエージェントを本番運用したい開発者の必読ツールキット。

なぜAIエージェントにガバナンスが必要か

AIエージェントは「単一のモデル呼び出し」を超えて、外部ツールの実行・ファイル操作・ネットワークリクエストを行う。これは従来のWebアプリケーションとは質の異なるリスクを生む:

  • エージェントが外部サービスを呼び出す際の認可チェックは誰が行うか
  • 悪意あるユーザー入力がプロンプトインジェクション経由でツール実行を誘導した場合
  • 自律エージェントが削除・上書き操作を実行した後に気付いても遅い

OWASPはこれを「Agentic AI Top 10」として体系化しているが、対応ツールは断片的だった。

Agent Governance Toolkitとは

MicrosoftのAgent Governance Toolkit(以下AGT)は2026年4月2日にオープンソース公開された。GitHub: microsoft/agent-governance-toolkit、ライセンス: MIT。

対応リスク    : OWASP Agentic AI Top 10(全10項目)
ポリシー実行  : p99 < 0.1ms(ステートレス)
フレームワーク: LangChain / CrewAI / Google ADK / LangGraph /
              PydanticAI / Haystack / Microsoft Agent Framework
言語         : Python / TypeScript / Rust / Go / .NET
テスト数     : 9,500以上
ファジング    : ClusterFuzzLite(継続的)
サプライチェーン: SLSA準拠provenance / OpenSSF Scorecard / CodeQL

アーキテクチャ:Agent OSパッケージ

中核は「Agent OS」と呼ばれるステートレスなポリシーエンジンだ。エージェントが実行しようとするすべてのアクションを実行前にインターセプトし、設定されたポリシーに照らして判定する。

エージェントループ:
  ┌─────────────────────────────────────┐
  │  User Input                         │
  │       ↓                             │
  │  LLM (推論)                         │
  │       ↓                             │
  │  Tool Call Intent ──→ Agent OS      │◄── Policy YAML
  │                         │            │
  │                    ✅ Allow          │
  │                    ❌ Deny / Modify  │
  │                         ↓           │
  │  Tool Execution                     │
  └─────────────────────────────────────┘

p99 0.1ms以下という低レイテンシを実現しているのは、ポリシーエンジンがステートレスであること、ネットワーク呼び出しを行わないこと、評価ロジックをAOTコンパイル済みのRust/Wasmで処理していることによる。

実際の統合例(LangChain)

LangChainへの統合はコールバックハンドラー経由で行う:

from langchain_core.callbacks import BaseCallbackHandler
from agent_governance import AgentOS, Policy

# ポリシー設定
policy = Policy.from_yaml("""
rules:
  - name: block-destructive-ops
    match:
      tool: ["file_delete", "db_drop", "send_email"]
    action: deny
    reason: "Destructive operations require human approval"

  - name: rate-limit-web-search
    match:
      tool: web_search
    action: allow
    rate_limit:
      window: 60s
      max: 10
""")

# Agent OS 初期化
agent_os = AgentOS(policy=policy)

# LangChain コールバックとして注入
class GovernanceCallback(BaseCallbackHandler):
    def on_tool_start(self, serialized, input_str, **kwargs):
        decision = agent_os.evaluate(
            tool=serialized["name"],
            input=input_str,
        )
        if decision.action == "deny":
            raise PermissionError(f"Policy denied: {decision.reason}")

# エージェント実行時にコールバックを渡す
agent.run(
    input="...",
    callbacks=[GovernanceCallback()],
)

OWASP Agentic AI Top 10 との対応

OWASP リスクAGT の対応メカニズム
A01: プロンプトインジェクション入力サニタイズポリシー + ツール呼び出し検証
A02: 過剰な権限付与最小権限ポリシーエンジン
A03: 制御されない再帰実行深度・ループ制限
A04: データ漏洩出力フィルタリングポリシー
A05: ゾンビエージェントタイムアウト・終了条件の強制
A06〜A10リソース枯渇・偽装・サプライチェーン等

開発者が実際に得るもの

本番運用前のリスク可視化

ポリシーをdryrunモードで評価すると、エージェントが「何を要求しようとするか」をログに出力できる。本番適用前のリスクアセスメントに使える。

# dryrun: ポリシー適用をシミュレートしてログ出力のみ
AGENT_OS_MODE=dryrun python my_agent.py
# → どのツール呼び出しがdenyされるかを事前確認できる

ゼロトラストIDの実現

各エージェントにIDトークンを付与し、誰がどのツールを実行したかを追跡できる。マルチエージェントシステムで特に有効だ。

SRE視点でのモニタリング

OpenTelemetryとの統合により、ポリシー判定結果・レイテンシ・拒否率などをメトリクスとして収集できる。

注意点・未確認情報

  • AGTはフレームワークのネイティブ拡張ポイントを使って統合するため、フレームワーク自体のバージョン更新でAPIが変わった場合は追随が必要
  • p99 0.1msのレイテンシは単体測定値。実際のシステムではミドルウェアチェーンの追加レイテンシが加わる
  • Microsoftは「財団(foundation)への移管を検討中」としているが、具体的なタイムラインは未公表
  • OWASP Agentic AI Top 10自体が2026年4月時点でドラフト段階のリスクがある(正式版を随時確認推奨)

まとめ

AIエージェントが「外部ツールを叩く」設計になった時点で、認可・監査・実行制限の仕組みを後付けするのは難しい。AGTはこれをランタイムで解決するアプローチを取り、主要フレームワークへの統合をワンライナー級の実装コストで実現している。MIT Licenseで商用利用可能、9,500以上のテストと継続的ファジングは本番運用への信頼性を示す。エージェントを本番に持ち込む前に一度評価する価値がある。

参考リンク