Anthropic「Dreaming」——Claudeエージェントがセッション間で自己改善する仕組みとHarveyの6倍効果

何が起きたか

2026年5月6日、Anthropicが Code with Claude 2026 カンファレンスで Claude Managed Agents に新機能を追加すると発表した。その目玉が Dreaming（ドリーミング）だ。

Dreaming 基本情報:
  発表日:     2026年5月6日（Code with Claude 2026）
  対象:       Claude Managed Agents（エンタープライズ向け）
  ステータス: リサーチプレビュー（要アクセスリクエスト）
  発表担当:   Alex Albert（Anthropic リサーチプロダクトマネジメント責任者）
  実績:       Harvey（法律AI）でタスク完了率が約6倍に向上

何が問題だったか

エージェントが長期間稼働すると、同じ種類の失敗を繰り返す問題が生じる。

従来のエージェントの問題:

セッション1: 契約書レビュー → 管轄条項を見落とす → 失敗
セッション2: 契約書レビュー → 管轄条項を見落とす → 失敗（また同じミス）
セッション3: 契約書レビュー → 管轄条項を見落とす → 失敗（改善されない）

原因: セッション間で「何を間違えたか」を保持する仕組みがない。
     長期記憶（Long-term Memory）はあっても、
     「失敗パターンの抽出と修正」はなかった。

Dreamingはこの問題を「モデルの再訓練」ではなく「メモリのキュレーション」で解決しようとする。

Dreamingの仕組み

非同期ワークフローとして動作

Dreamingの処理フロー:

1. [トリガー]
   開発者がメモリストア + 過去セッションのトランスクリプトを
   バッチで Dreaming システムに投入

2. [分析フェーズ（非同期）]
   Claude が過去セッションを"再生"し、3種のパターンを探索:
   
   a) 繰り返している失敗
      例: 「管轄条項を毎回見落とす」
   
   b) 複数のジョブをまたいで収束したワークフロー
      例: 「文書要約 → 箇条書き化 → 関連条項リンク付け」が定着

   c) チームや個人の嗜好
      例: 「このチームは詳細な引用より概要文を好む」

3. [キュレーションフェーズ]
   - 重複情報のマージ
   - 古くなったエントリの削除
   - 繰り返しパターンのハイライト

4. [出力]
   整理されたメモリ層（プレーンテキストの「プレイブック」）

5. [人間によるレビュー]
   開発者またはチームが approve / reject / modify を実施

6. [次セッションからの適用]
   承認されたプレイブックが将来のセッションで参照される

モデル重みは変わらない

Alex Albert はこの点を明示している：

「DreamingはClaudeのモデル自体を通じて変更を行っていません。重みやそのようなものを更新しているわけではありません」

何が変わるか（Dreaming）:
  ✅ エージェントのメモリストア（テキストファイル）
  ✅ 将来セッションが参照するプレイブック
  
何が変わらないか:
  ❌ Claude のモデルウェイト
  ❌ Claude の基本的な能力・知識
  ❌ 他の組織のエージェントへの影響

類比: 研修医が研修ノートを書き直す行為。
     医師としての知識（重み）は変わらないが、
     「よく見落とすパターン」への注意が高まる。

ヒポカンパル記憶固定化との類比

Anthropicは人間の脳の海馬（Hippocampus）における記憶固定化（Memory Consolidation） との類比を使っている。睡眠中に脳が一日の経験を再生し、重要なパターンを長期記憶に転送するプロセスと構造的に似ている。

Harvey での実績

法律AI企業 Harvey はリサーチプレビューでDreamingを試験導入し、顕著な結果を報告した。

Harvey 導入結果:
  対象:       法律文書レビュー・分析タスク
  改善指標:   タスク完了率
  改善幅:     約6倍（~6x）

改善のメカニズム（推定）:
  - 法律文書特有の落とし穴（管轄条項、インデムニティ条項など）を
    プレイブックとして蓄積
  - 「この顧客はリスク要因を箇条書きで整理した形式を好む」など
    チーム嗜好の定着
  - 繰り返した失敗タイプが次セッションで回避される

6倍という数字はかなり大きい。ただし、タスクの性質（定型度が高い法律文書レビュー）がDreamingの恩恵を受けやすい可能性があり、すべてのユースケースで同等の改善を期待すべきではない（未確認）。

開発者・チームへの実装イメージ

# Claude Managed Agents + Dreaming の概念的な使用例
# （実際のAPIは要アクセスリクエスト後に確認）

import anthropic

client = anthropic.Anthropic()

# 1. 過去セッションのトランスクリプトを収集
session_transcripts = [
    load_session_transcript("session_20260401.json"),
    load_session_transcript("session_20260408.json"),
    # ... 過去30日分など
]

# 2. 現在のメモリストアを取得
current_memory = load_memory_store("team_contract_review.json")

# 3. Dreamingを実行（非同期）
dreaming_result = client.managed_agents.dream(
    memory_store=current_memory,
    session_transcripts=session_transcripts,
    # 分析する失敗パターンの種類
    extract=["failure_patterns", "established_workflows", "preferences"]
)

# 4. 生成されたプレイブックをレビュー
print(dreaming_result.playbook)
# → "管轄条項のチェックを必ずステップ2で実施すること"
# → "このチームは引用より要約文を好む傾向あり"

# 5. 承認後に適用
if human_review_approved(dreaming_result):
    client.managed_agents.apply_memory(dreaming_result.curated_memory)

落とし穴・注意点

「6倍改善」は特定コンテキストの結果: Harveyの法律文書タスクは繰り返しパターンが多い。コードデバッグや創造的タスクでの効果は検証が必要
プレイブックの品質は入力トランスクリプトに依存: 質の低いセッション・失敗が少ないセッションからは学習材料が少ない
リサーチプレビュー段階: アクセスリクエストが必要で、一般提供のタイムラインは未公表
人間レビューが必須: 自動適用は用意されていない。「Claudeが自律的に自分を改訓練する」は誤解で、開発者の承認ゲートが入る
Enterprise限定: Claude Managed AgentsはAPIエコシステムの特定プランで提供。個人ユーザー向けのClaude.aiには提供されない

まとめ

Dreamingは「モデルを再訓練する」のではなく「エージェントの記憶を整理する」アプローチをとる。技術的にはファインチューニングとは全く異なり、構造化されたメモ書きの自動化に近い。それでもHarveyの6倍改善は、定型度が高い反復タスクに大きなインパクトをもたらせることを示している。エージェントが本番稼働する環境で、同じ失敗の繰り返しに悩んでいる開発者には、アクセスリクエストを出して試す価値がある。

参考リンク

未確認事項: Harvey の「6倍」改善はタスク完了率の指標だが、測定方法（自動評価か人間評価か）は非公開。Dreaming の一般提供スケジュールおよびPrice体系は2026年5月時点で未発表。

S	公式ソース確認済み
A	成功実績多数・失敗例少数
B	賛否両論
C	動作未確認・セキュリティリスク高
Z	個人所感