Anthropic「Dreaming」——Claudeエージェントがセッション間で自己改善する仕組みとHarveyの6倍効果
Anthropicが2026年5月6日に発表したClaude Managed Agentsの新機能「Dreaming」。モデル重みを変更せず、過去セッションを非同期で分析して失敗パターン・確立ワークフロー・チーム嗜好をプレイブックに整理し自動的に改善する。法律AIのHarveyでタスク完了率が6倍に。
Anthropicが2026年5月6日に発表したClaude Managed Agentsの新機能「Dreaming」。モデル重みを変更せず、過去セッションを非同期で分析して失敗パターン・確立ワークフロー・チーム嗜好をプレイブックに整理し自動的に改善する。法律AIのHarveyでタスク完了率が6倍に。
OPPOのMente Labがオープンソース公開したX-OmniClawは、Android端末上でカメラ・スクリーン・音声を同時処理しアプリをまたいでタスクを実行するエッジネイティブなAIエージェント。物理端末上で直接動作し、クラウドは高レベル推論のみに使用する4層アーキテクチャを採用。
CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK(수학)。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信(Overconfidence)問題を研究レベルで実証した。
ペンシルバニア大学が提案するMollifier Layersは、1940年代の数学的概念を物理インフォームドMLに転用し、逆偏微分方程式(逆PDE)学習における高階自動微分のメモリ消費と不安定性を6〜10倍改善する。NeurIPS 2026採択論文の仕組みと応用を解説。
Sakana AIがICLR 2026で発表した7BのConductorモデルは、強化学習でGPT-5・Claude Sonnet 4・Gemini 2.5 Proを動的にオーケストレーションしGPQA-Diamond 87.5%・LiveCodeBench 83.93%を達成。商用製品Fugu(ベータ)の技術的仕組みを解説。
元OpenAI CTO ミラ・ムラーティが率いるThinking Machines Labが276B MoEモデルTML-Interaction-Smallを発表。0.40秒応答・マルチモーダル連続処理でOpenAI Realtime APIに挑む新アーキテクチャを解説。
SJTU/Eigen AI チームの ML-Master 2.0 が OpenAI MLE-Bench で56.44%のメダル率を達成し首位。DeepSeek ベースの階層的認知キャッシュ(HCC)がなぜ機能するのかを解説。
音声AIインフラスタートアップ Vapi が2026/5/12に$50M Series B を調達。1億通話突破・Amazon Ring が全受電をVapiに移行。エンタープライズ音声エージェント市場の構造変化を解説。
OpenAI Realtime API GA(2026/5/8)。GPT-5.5クラスの推論・128KコンテキストのGPT-Realtime-2と、70言語翻訳・ライブ文字起こしの専用2モデルが追加された。
OpenAIが2026年5月11日に企業向けAI展開専門の子会社を設立。TPG主導で$4B以上を調達、Tomoro買収で150名のFDEを確保。顧客組織に常駐しAIを本番稼働させるPalantir型モデル。
2026年5月5日、OpenAIがGPT-5.5 InstantをChatGPTのデフォルトモデルとして展開。幻覚52.5%削減、回答30%短縮、Gmail/記憶統合でパーソナライゼーション強化。APIはchat-latestで自動ルーティング。
Anthropicが2026年5月6日、SpaceX/xAI所有のColossus 1スーパーコンピュータ(22万枚以上NVIDIA GPU・300MW)の全容量を確保。Claude Pro/Max利用制限を即時大幅緩和、軌道上データセンター構想も発表。
中国のMoonshot AIがMeituan主導で$20B評価額・$2B調達を完了。Kimi K2.6はSWE-Bench Proでスコア58.6を記録しGPT-5.4(57.7)を上回る。API・モデル仕様・開発者への影響を解説。
AnthropicのARRが2026年4月にOpenAIを超えて$300億に達した。会計論争・成長ドライバー・Claude Codeの爆発的採用を解説。AI APIビジネスを構築するための実践的示唆。
元Salesforce共同CEOのBret TaylorがSierraを$950M調達、$158億評価額に。Fortune 50の40%超が顧客、ARR $150M超。企業向けAIエージェントの設計と開発者への示唆を解説。
Anthropicが金融機関向けに10本のClaudeエージェントテンプレートを公開。ピッチブック・KYC・月末決算など実務ワークフローを数日で本番投入可能にするcookbook設計を解説。
AnthropicがClioツールで100万件のClaude.ai会話を解析。個人向け相談の6%を占め、関係相談の25%・スピリチュアル相談の38%でお世辞的回答が検出された。Opus 4.7での改善手法と、AIプロダクト開発者への示唆を解説する。
2026年5月5日、Microsoft・Google・xAIが米商務省CAISIとフロンティアAIの事前評価協定に署名。OpenAI・Anthropicに続き全主要ラボが参加し、公開前に安全対策を削減した状態でのモデル審査体制が確立した。
2026年4月30日、GUARD Actが米上院司法委員会を全会一致で通過し全上院へ。18歳未満へのAIコンパニオン提供禁止・年齢確認義務・非人間開示要件の技術的含意と、EFFが指摘する過剰立法リスクを整理する。
2026年5月4日、AIチップメーカーCerebrasが評価額$40Bに更新したIPO申請を提出。OpenAIとの$20B超の取引関係と収益構造を解説する。
2026年4月30日、Featherless.aiがAMD Ventures・Airbus Ventures主導で$20M Series Aを調達。30,000以上のHugging Faceモデルをサーバーレス・月額定額で提供するホットスワップ技術の詳細と、プロプライエタリAIへの代替として開発者が今すぐ使う方法を解説。
2026年4月27日、DeepMind元RL主任David SilverのIneffable Intelligenceが欧州史上最大$1.1Bシード(評価額$5.1B)を調達。強化学習で人間データなしに新知識を発見する「スーパーラーナー」の構想と開発者・研究者への意味を解説。
2026年4月29日、MistralがMedium 3.5(128B・256Kコンテキスト・SWE-bench 77.6%)とVibe Remote Agentsを発表。PRを自動作成するクラウドコーディングエージェントの仕組みと開発者への影響を解説する。
2026年4月27〜28日、MicrosoftとOpenAIの独占契約が終了し翌日にOpenAIがAWS Bedrockへ参入。GPT-5.5・Codex・Managed Agentsが標準BedrockAPIから利用可能になった意味を整理する。
元Twitter CEOのParag Agrawalが創業したParallel Web Systemsが$100M Series B($2B評価)を達成。AIエージェントに特化したウェブ検索・調査APIの技術的位置づけと開発者にとっての意味を解説。
2026年4月28日、NVIDIAがNemotron 3 Nano Omniをリリース。視覚・音声・テキスト・コードを単一モデルで処理するMoEアーキテクチャ(30B総量/3Bアクティブ)でApache 2.0ライセンス。Nemotron 2比4倍のスループット。エッジAIエージェントへの実装方法を解説する。
Metaが4月5日にリリースしたLlama 4 Scout(MoE 17B/109B、Llama Community License)は10Mトークンコンテキストを謳うが、実際の制約は多い。$0.08/M入力トークンのAPI運用と、Apple Silicon・H100でのローカル展開の現実的な限界を整理する。
中国国家発展改革委員会(NDRC)が2026年4月27日、MetaによるAIスタートアップManus(20億ドル)の買収取引を事後的に差し止め命令した。従業員はすでにMeta入社済み、投資家への支払いも完了済みという状況での初の「ロールバック命令」は越境AI取引の新たな地政学リスクを示す。
Googleが2026年4月にICLR 2026で発表したTurboQuantは、LLM推論の最大ボトルネックであるKVキャッシュをトレーニングなしで6倍圧縮しながら精度損失ゼロを達成した。PolarQuantとQJLを組み合わせた2段階アルゴリズムで、GemmaとMistralで検証済み。
Alibabaが2026年4月22日にリリースしたQwen 3.6 27Bは、単一RTX 4090(24GB)で動作しながらSWE-bench VerifiedでClaude Opus 4.6に4ポイント差に迫る。Apache 2.0ライセンス・262Kコンテキスト・201言語対応のマルチモーダルモデルで、ローカルコーディングエージェントの最有力候補になった。
Sony AIが開発した自律ロボット「Ace」がNature誌(2026年4月23日)に掲載された。エリート選手に3勝2敗、3月には新たな3名のプロ選手全員から少なくとも1勝。8関節アームと高速カメラネットワークによる物理AIが卓球という競技でついて人間のプロ級に達した初のシステム。
Natureが2026年4月21日に報じたAgent4Scienceは、目的特化型AIエージェントのみが投稿・議論できるReddit風の学術プラットフォーム。エージェントはskeptic・academic・storytellerの役割で論文に対しsupports・probes・challengesのラベルで応答する。人間はオブザーバーとしてのみ参加可能。
Anthropicが4月16日にClaude Opus 4.7をリリース。SWE-bench Pro 64.3%(+10.9pt)・xhigh effort設定・タスクバジェットβを導入。新トークナイザーで最大35%コスト増に注意。
カナダCohereがドイツAleph Alphaを買収し、評価額約200億ドルの合弁企業を設立。Schwarz Group(Lidl親会社)が6億ドルのSeries Eを主導。欧州AI主権需要への戦略的対応を解説。
Crunchbase Q1 2026レポート:グローバルVC投資は3,000億ドルで過去最高、80%がAI。OpenAI $1,220億が全体の40%超。AI/非AI間の評価格差拡大と資金調達環境の変化を整理。
Anthropicが2026年4月30日にClaude Sonnet 4.5とClaude Sonnet 4の1Mトークンコンテキストβを終了。context-1m-2025-08-07ヘッダーが無効化され、200kトークン超のリクエストはエラーになる。Sonnet 4.6への移行手順とコスト改善のポイントを解説。
DeepSeekが2026年4月24日にV4-ProとV4-Flashをプレビューリリース。MIT License、1Mトークンコンテキスト、SWE-bench 80.6%でフロンティアモデルに肉薄しながら出力コストはClaude Opus 4.6の約7分の1。AI組み込みアプリを構築する開発者が今すぐ検討すべき理由を解説。
OpenAIが4月23日にWorkspace Agentsを発表。Custom GPTsの後継として企業向けに提供され、Slack・Salesforce・Google Drive・Notionなどと直接統合。無料期間は5月6日まで。開発者・プロダクト責任者が押さえるべきアーキテクチャと影響範囲を解説。
OpenAIが4月23日にGPT-5.5をリリース。Terminal-Bench 2.0で82.7%(Claude Opus 4.7比+13.3pt)、API価格は$5/1M入力・$30/1M出力。4月22日の予測記事の続報として実際の数字と開発者への影響を整理。
2026年4月15日、SnapのCEOがAIによるコード生成65%を理由に全従業員16%(1,000名)をレイオフ。GitHubが同時期に全コミットの51%がAI生成と報告。開発者が今理解すべき構造変化を解説。
4月20日発表。Amazon追加投資(即時50億+条件付き最大200億ドル)とAnthropicの向こう10年$1,000億AWS支出コミット。Claude on AWSの新体制とTrainium活用の実態を解説。
4月22〜23日開催のGoogle Cloud Next 2026。第7世代TPU「Ironwood」の一般提供開始、Gemini Enterprise Agent Platform発表、第8世代TPUプレビューを開発者視点で解説。
内部コード名『Spud』のOpenAI次世代モデルが3月24日にPretraining完了。予測市場で4月23日公開の確率75%超と算出される中、確認済み情報と未確認情報を切り分けて整理する。
Stanford HAIの2026年AIインデックスレポートを開発者・ビジネス視点で読み解く。能力向上・企業採用の実態から、透明性低下と地政学的変化まで整理。
Google DeepMindがGemma 4を2026年4月にリリース。E2B〜31B Dense まで4サイズ、Apache 2.0ライセンスでマルチモーダル対応。オープンモデルの勢力図が塗り変わった。
2026年のNature報告によると、最新AIエージェントは複雑な科学タスクで人間科学者に大きく負ける。一方でAIは研究者の生産性を飛躍的に高める。この矛盾に開発者が向き合うべき理由とは。
4130万本の論文を分析したNature研究が明らかにした逆説。AIツールを使う研究者は論文数3倍・被引用数4.8倍になるが、科学全体の研究多様性は22%低下する。
MIT CSAILらが発表したCompreSSMは、状態空間モデルを訓練後ではなく訓練中に圧縮し、Mambaで4倍の速度向上と精度維持を両立。ICLR 2026採択論文の解説。
690万人のr/programmingが2026年4月にLLM関連投稿を一時禁止。AIノイズへの疲弊が示す、開発者コミュニティの知的ニーズの変化と技術発信への実践的な教訓。
2026年末には企業アプリの40%にAIエージェントが組み込まれると予測される中、LangGraph・Microsoft AutoGen・OpenAI Agents SDKをガバナンス・コスト・スケールの観点で比較し、実装上の落とし穴を解説します。
同じ指示を3回書いたら永続化する、というベテランClaude Code使いの鉄則。CLAUDE.md / Skills / Hooks / subagent のどこに昇格させるかの判断軸を実例で整理します。
Claude Codeの月額が重い最大要因は「Haikuで足りるタスクまでSonnet/Opusで処理している」ことです。探索・要約・grep的作業を専用Haikuサブエージェントに固定してコストを桁で下げる実践パターンを紹介します。
Claude CodeをAnthropic公式ドキュメントの指示通りに動かすための運用原則・コンテキスト設計・Hooks/Skills/MCP連携を、2026年4月時点のバージョン2.1系ベースで整理します。
公式ドキュメントはPlan Modeを安全装置として説明しますが、達人は「実装案に反論させる場」として使います。最良1案ではなく2案+トレードオフを引き出すプロンプト型を紹介します。
Claude Codeの出力がおかしいと思った時に、言い訳を聞いたり修正を依頼したりするより即座に `/rewind` で巻き戻す方が速くて正確、というベテラン共通の鉄則と、/clear, /compact との使い分けを整理します。
公式ドキュメントは1〜2セッション例しか示さないが、重いタスクを回している個人開発者やシニアは常時3〜5セッションを並列運用しています。実務の泥臭い構成・Hook・コスト管理をまとめます。
ICLR 2026で発表されたGoogleのTurboQuantは、LLM推論のボトルネックであるKV Cacheをベクトル量子化で6倍圧縮。精度劣化ゼロでH100 GPUにて最大8倍の速度向上を達成した技術を解説します。
690万人を抱えるr/programmingが2026年4月、LLM関連コンテンツを一時禁止。「技術的議論がAIノイズに埋もれる」という問題の本質と、開発者コミュニティが自衛するための実践的アプローチを考えます。
Stanford HAIが発表したAI Index 2026の主要知見を解説。SWE-benchはほぼ満点、米中の差は消滅、組織採用率88%に達する一方で公衆の信頼は過去最低水準に。
Claude Code公式ドキュメント準拠で、managed-settings.jsonとmanaged-settings.dを使ったManaged Agentsの配布、優先制御、監査しやすい運用設計を詳解。
Claude Code公式ドキュメントをもとに、Managed Agents(組織管理エージェント)とSubagentの基本概念、スコープ優先順位、運用設計の要点を徹底解説。
公式のAgent SDKドキュメントをもとに、Claude Managed Agents/Subagentをコードから安全に扱う方法を、allowedTools・resume・履歴分離まで徹底解説。
GitHub ActionsとAI(Claude Opus 4.6・GPT-5.4)を組み合わせてPRのコードレビューを自動化する方法を解説。セキュリティチェック・バグ検出・スタイル一貫性の維持をAIに任せます。
JetBrains・Pragmatic Engineer調査によると74%の開発者がAIツールを採用し、95%が週1回以上使用。Claude Code・Cursor・GitHub Copilotのシェアと満足度データを整理します。
3大AIコーディングツールを実用的な観点から比較。コンテキスト理解・マルチファイル編集・価格・IDEサポートなど具体的な違いを整理し、選択の基準を提示します。
セキュリティ・性能・可読性の観点を毎回同じ順で確認する。
変更点を抽出してREADME/Runbook更新漏れを防ぐ。
時系列復元と再発防止策の抽出をテンプレ化する。
失敗事例をSkillへ反映し、次回対応時間を短縮する。
破壊的変更の検出と段階移行のチェックを再利用可能にする。
Go/No-Go判断に必要な証跡を自動収集できる形にする。
構成把握・依存整理・禁止事項抽出をテンプレート化する。
曖昧要件を受け入れ条件に落とすSkillが全工程の品質を決める。
ログ分類と再現手順抽出をSkill化して一次対応を高速化する。
データフロー単位でSTRIDE観点を機械的に洗い出す。
MLOps(Machine Learning Operations)の基本概念から実践まで解説。モデルの訓練・評価・デプロイ・監視のパイプライン構築、主要ツール(MLflow・BentoML・Seldon)の使い方を紹介します。
Ollamaを使ってLLM(大規模言語モデル)をローカルで動かす方法を解説。インストールからLlama・Mistral・Gemmaの実行、OpenAI互換APIの活用、RAGへの応用まで紹介します。
LLMから高品質な出力を引き出すプロンプト技術を解説。Chain-of-Thought・Few-shot・XML構造化・System Promptの設計など、実践で使えるパターンを網羅します。
RAGの仕組みから実装まで解説。テキストのチャンキング・Embeddingによるベクトル化・類似検索・LLMへのコンテキスト注入まで、Node.jsの実例コードで紹介します。
「雰囲気でコードを書く」Vibe Codingが2025年に生まれ2026年に本格化。AIに要件を伝えてコードを生成させる開発スタイルの実態・メリット・リスクを整理します。