MicrosoftがAIエージェント向けオープンソース「Agent Governance Toolkit」を公開——OWASP Agentic Top 10を全カバー、p99 0.1ms以下のランタイムポリシーエンジン

なぜAIエージェントにガバナンスが必要か

AIエージェントは「単一のモデル呼び出し」を超えて、外部ツールの実行・ファイル操作・ネットワークリクエストを行う。これは従来のWebアプリケーションとは質の異なるリスクを生む：

エージェントが外部サービスを呼び出す際の認可チェックは誰が行うか
悪意あるユーザー入力がプロンプトインジェクション経由でツール実行を誘導した場合
自律エージェントが削除・上書き操作を実行した後に気付いても遅い

OWASPはこれを「Agentic AI Top 10」として体系化しているが、対応ツールは断片的だった。

Agent Governance Toolkitとは

MicrosoftのAgent Governance Toolkit（以下AGT）は2026年4月2日にオープンソース公開された。GitHub: microsoft/agent-governance-toolkit、ライセンス: MIT。

対応リスク    : OWASP Agentic AI Top 10（全10項目）
ポリシー実行  : p99 < 0.1ms（ステートレス）
フレームワーク: LangChain / CrewAI / Google ADK / LangGraph /
              PydanticAI / Haystack / Microsoft Agent Framework
言語         : Python / TypeScript / Rust / Go / .NET
テスト数     : 9,500以上
ファジング    : ClusterFuzzLite（継続的）
サプライチェーン: SLSA準拠provenance / OpenSSF Scorecard / CodeQL

アーキテクチャ：Agent OSパッケージ

中核は「Agent OS」と呼ばれるステートレスなポリシーエンジンだ。エージェントが実行しようとするすべてのアクションを実行前にインターセプトし、設定されたポリシーに照らして判定する。

エージェントループ:
  ┌─────────────────────────────────────┐
  │  User Input                         │
  │       ↓                             │
  │  LLM (推論)                         │
  │       ↓                             │
  │  Tool Call Intent ──→ Agent OS      │◄── Policy YAML
  │                         │            │
  │                    ✅ Allow          │
  │                    ❌ Deny / Modify  │
  │                         ↓           │
  │  Tool Execution                     │
  └─────────────────────────────────────┘

p99 0.1ms以下という低レイテンシを実現しているのは、ポリシーエンジンがステートレスであること、ネットワーク呼び出しを行わないこと、評価ロジックをAOTコンパイル済みのRust/Wasmで処理していることによる。

実際の統合例（LangChain）

LangChainへの統合はコールバックハンドラー経由で行う：

from langchain_core.callbacks import BaseCallbackHandler
from agent_governance import AgentOS, Policy

# ポリシー設定
policy = Policy.from_yaml("""
rules:
  - name: block-destructive-ops
    match:
      tool: ["file_delete", "db_drop", "send_email"]
    action: deny
    reason: "Destructive operations require human approval"

  - name: rate-limit-web-search
    match:
      tool: web_search
    action: allow
    rate_limit:
      window: 60s
      max: 10
""")

# Agent OS 初期化
agent_os = AgentOS(policy=policy)

# LangChain コールバックとして注入
class GovernanceCallback(BaseCallbackHandler):
    def on_tool_start(self, serialized, input_str, **kwargs):
        decision = agent_os.evaluate(
            tool=serialized["name"],
            input=input_str,
        )
        if decision.action == "deny":
            raise PermissionError(f"Policy denied: {decision.reason}")

# エージェント実行時にコールバックを渡す
agent.run(
    input="...",
    callbacks=[GovernanceCallback()],
)

OWASP Agentic AI Top 10 との対応

OWASP リスク	AGT の対応メカニズム
A01: プロンプトインジェクション	入力サニタイズポリシー + ツール呼び出し検証
A02: 過剰な権限付与	最小権限ポリシーエンジン
A03: 制御されない再帰	実行深度・ループ制限
A04: データ漏洩	出力フィルタリングポリシー
A05: ゾンビエージェント	タイムアウト・終了条件の強制
A06〜A10	リソース枯渇・偽装・サプライチェーン等

開発者が実際に得るもの

本番運用前のリスク可視化

ポリシーをdryrunモードで評価すると、エージェントが「何を要求しようとするか」をログに出力できる。本番適用前のリスクアセスメントに使える。

# dryrun: ポリシー適用をシミュレートしてログ出力のみ
AGENT_OS_MODE=dryrun python my_agent.py
# → どのツール呼び出しがdenyされるかを事前確認できる

ゼロトラストIDの実現

各エージェントにIDトークンを付与し、誰がどのツールを実行したかを追跡できる。マルチエージェントシステムで特に有効だ。

SRE視点でのモニタリング

OpenTelemetryとの統合により、ポリシー判定結果・レイテンシ・拒否率などをメトリクスとして収集できる。

注意点・未確認情報

AGTはフレームワークのネイティブ拡張ポイントを使って統合するため、フレームワーク自体のバージョン更新でAPIが変わった場合は追随が必要
p99 0.1msのレイテンシは単体測定値。実際のシステムではミドルウェアチェーンの追加レイテンシが加わる
Microsoftは「財団（foundation）への移管を検討中」としているが、具体的なタイムラインは未公表
OWASP Agentic AI Top 10自体が2026年4月時点でドラフト段階のリスクがある（正式版を随時確認推奨）

まとめ

AIエージェントが「外部ツールを叩く」設計になった時点で、認可・監査・実行制限の仕組みを後付けするのは難しい。AGTはこれをランタイムで解決するアプローチを取り、主要フレームワークへの統合をワンライナー級の実装コストで実現している。MIT Licenseで商用利用可能、9,500以上のテストと継続的ファジングは本番運用への信頼性を示す。エージェントを本番に持ち込む前に一度評価する価値がある。

S	公式ソース確認済み
A	成功実績多数・失敗例少数
B	賛否両論
C	動作未確認・セキュリティリスク高
Z	個人所感