Anthropic「Dreaming」——Claudeエージェントがセッション間で自己改善する仕組みとHarveyの6倍効果
Anthropicが2026年5月6日に発表したClaude Managed Agentsの新機能「Dreaming」。モデル重みを変更せず、過去セッションを非同期で分析して失敗パターン・確立ワークフロー・チーム嗜好をプレイブックに整理し自動的に改善する。法律AIのHarveyでタスク完了率が6倍に。
Anthropicが2026年5月6日に発表したClaude Managed Agentsの新機能「Dreaming」。モデル重みを変更せず、過去セッションを非同期で分析して失敗パターン・確立ワークフロー・チーム嗜好をプレイブックに整理し自動的に改善する。法律AIのHarveyでタスク完了率が6倍に。
CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK(수학)。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信(Overconfidence)問題を研究レベルで実証した。
Ollamaのヒープ範囲外読み取り脆弱性CVE-2026-7482(CVSS 9.1)は未認証の攻撃者がプロセスメモリ全体を外部に流出できる。APIキー・システムプロンプト・チャット断片を3回のAPIコールで盗む攻撃経路と修正済みバージョン0.17.1への対応を解説。
Sakana AIがICLR 2026で発表した7BのConductorモデルは、強化学習でGPT-5・Claude Sonnet 4・Gemini 2.5 Proを動的にオーケストレーションしGPQA-Diamond 87.5%・LiveCodeBench 83.93%を達成。商用製品Fugu(ベータ)の技術的仕組みを解説。
元OpenAI CTO ミラ・ムラーティが率いるThinking Machines Labが276B MoEモデルTML-Interaction-Smallを発表。0.40秒応答・マルチモーダル連続処理でOpenAI Realtime APIに挑む新アーキテクチャを解説。
2026年5月5日、OpenAIがGPT-5.5 InstantをChatGPTのデフォルトモデルとして展開。幻覚52.5%削減、回答30%短縮、Gmail/記憶統合でパーソナライゼーション強化。APIはchat-latestで自動ルーティング。
中国のMoonshot AIがMeituan主導で$20B評価額・$2B調達を完了。Kimi K2.6はSWE-Bench Proでスコア58.6を記録しGPT-5.4(57.7)を上回る。API・モデル仕様・開発者への影響を解説。
元Salesforce共同CEOのBret TaylorがSierraを$950M調達、$158億評価額に。Fortune 50の40%超が顧客、ARR $150M超。企業向けAIエージェントの設計と開発者への示唆を解説。
AnthropicがClioツールで100万件のClaude.ai会話を解析。個人向け相談の6%を占め、関係相談の25%・スピリチュアル相談の38%でお世辞的回答が検出された。Opus 4.7での改善手法と、AIプロダクト開発者への示唆を解説する。
2026年4月30日、Featherless.aiがAMD Ventures・Airbus Ventures主導で$20M Series Aを調達。30,000以上のHugging Faceモデルをサーバーレス・月額定額で提供するホットスワップ技術の詳細と、プロプライエタリAIへの代替として開発者が今すぐ使う方法を解説。
2026年4月29日、MistralがMedium 3.5(128B・256Kコンテキスト・SWE-bench 77.6%)とVibe Remote Agentsを発表。PRを自動作成するクラウドコーディングエージェントの仕組みと開発者への影響を解説する。
元Twitter CEOのParag Agrawalが創業したParallel Web Systemsが$100M Series B($2B評価)を達成。AIエージェントに特化したウェブ検索・調査APIの技術的位置づけと開発者にとっての意味を解説。
2026年4月30日、PANWがAIゲートウェイのPortkeyを買収。月次数兆トークンを処理するPortkeyをPrisma AIRSに統合し、企業のAIエージェント全通信を一元管理・監査する構想を解説。
2026年4月28日、NVIDIAがNemotron 3 Nano Omniをリリース。視覚・音声・テキスト・コードを単一モデルで処理するMoEアーキテクチャ(30B総量/3Bアクティブ)でApache 2.0ライセンス。Nemotron 2比4倍のスループット。エッジAIエージェントへの実装方法を解説する。
22,000以上のGitHubスターを持つLLMゲートウェイLiteLLMで、認証前に悪用可能なSQLインジェクション(CVSS 9.3)が発見・悪用された。OpenAI・Anthropic・AWS BedrockのAPIキーが窃取対象。対応バージョン1.83.7-stableへの即時アップグレードが必要。
Metaが4月5日にリリースしたLlama 4 Scout(MoE 17B/109B、Llama Community License)は10Mトークンコンテキストを謳うが、実際の制約は多い。$0.08/M入力トークンのAPI運用と、Apple Silicon・H100でのローカル展開の現実的な限界を整理する。
Googleが2026年4月にICLR 2026で発表したTurboQuantは、LLM推論の最大ボトルネックであるKVキャッシュをトレーニングなしで6倍圧縮しながら精度損失ゼロを達成した。PolarQuantとQJLを組み合わせた2段階アルゴリズムで、GemmaとMistralで検証済み。
Alibabaが2026年4月22日にリリースしたQwen 3.6 27Bは、単一RTX 4090(24GB)で動作しながらSWE-bench VerifiedでClaude Opus 4.6に4ポイント差に迫る。Apache 2.0ライセンス・262Kコンテキスト・201言語対応のマルチモーダルモデルで、ローカルコーディングエージェントの最有力候補になった。
Natureが2026年4月21日に報じたAgent4Scienceは、目的特化型AIエージェントのみが投稿・議論できるReddit風の学術プラットフォーム。エージェントはskeptic・academic・storytellerの役割で論文に対しsupports・probes・challengesのラベルで応答する。人間はオブザーバーとしてのみ参加可能。
SGLang 0.59のリランキングエンドポイント(/v1/rerank)にCVSS 9.8のRCE脆弱性。HuggingFaceからダウンロードした悪意あるGGUFモデルのtokenizer.chat_templateにJinja2 SSTIペイロードを仕込むことで任意コードを実行できる。パッチ未提供、即時緩和策を解説。
Anthropicが4月16日にClaude Opus 4.7をリリース。SWE-bench Pro 64.3%(+10.9pt)・xhigh effort設定・タスクバジェットβを導入。新トークナイザーで最大35%コスト増に注意。
VS Code 1.117がCopilot BYOKを一般公開。OpenRouter・Ollama・Google・OpenAIなど任意APIキーでVS Codeチャットのモデルを切り替え可能に。Claude CodeのエージェントCLI検出も追加。
Anthropicが2026年4月30日にClaude Sonnet 4.5とClaude Sonnet 4の1Mトークンコンテキストβを終了。context-1m-2025-08-07ヘッダーが無効化され、200kトークン超のリクエストはエラーになる。Sonnet 4.6への移行手順とコスト改善のポイントを解説。
DeepSeekが2026年4月24日にV4-ProとV4-Flashをプレビューリリース。MIT License、1Mトークンコンテキスト、SWE-bench 80.6%でフロンティアモデルに肉薄しながら出力コストはClaude Opus 4.6の約7分の1。AI組み込みアプリを構築する開発者が今すぐ検討すべき理由を解説。
OpenAIが4月23日にGPT-5.5をリリース。Terminal-Bench 2.0で82.7%(Claude Opus 4.7比+13.3pt)、API価格は$5/1M入力・$30/1M出力。4月22日の予測記事の続報として実際の数字と開発者への影響を整理。
内部コード名『Spud』のOpenAI次世代モデルが3月24日にPretraining完了。予測市場で4月23日公開の確率75%超と算出される中、確認済み情報と未確認情報を切り分けて整理する。
Google DeepMindがGemma 4を2026年4月にリリース。E2B〜31B Dense まで4サイズ、Apache 2.0ライセンスでマルチモーダル対応。オープンモデルの勢力図が塗り変わった。
2026年のNature報告によると、最新AIエージェントは複雑な科学タスクで人間科学者に大きく負ける。一方でAIは研究者の生産性を飛躍的に高める。この矛盾に開発者が向き合うべき理由とは。
690万人規模のr/programmingが2026年4月、LLM関連投稿を一時禁止。AIノイズで埋まったコミュニティが技術的な本質を取り戻そうとする動きの背景を読み解く。
690万人のr/programmingが2026年4月にLLM関連投稿を一時禁止。AIノイズへの疲弊が示す、開発者コミュニティの知的ニーズの変化と技術発信への実践的な教訓。
Stanford HAIが発表したAI Index 2026の主要知見を解説。SWE-benchはほぼ満点、米中の差は消滅、組織採用率88%に達する一方で公衆の信頼は過去最低水準に。
Ollamaを使ってLLM(大規模言語モデル)をローカルで動かす方法を解説。インストールからLlama・Mistral・Gemmaの実行、OpenAI互換APIの活用、RAGへの応用まで紹介します。
LLMから高品質な出力を引き出すプロンプト技術を解説。Chain-of-Thought・Few-shot・XML構造化・System Promptの設計など、実践で使えるパターンを網羅します。
RAGの仕組みから実装まで解説。テキストのチャンキング・Embeddingによるベクトル化・類似検索・LLMへのコンテキスト注入まで、Node.jsの実例コードで紹介します。