SJ blog
← タグ一覧

#llm (34 件)

ai

Anthropic「Dreaming」——Claudeエージェントがセッション間で自己改善する仕組みとHarveyの6倍効果

Anthropicが2026年5月6日に発表したClaude Managed Agentsの新機能「Dreaming」。モデル重みを変更せず、過去セッションを非同期で分析して失敗パターン・確立ワークフロー・チーム嗜好をプレイブックに整理し自動的に改善する。法律AIのHarveyでタスク完了率が6倍に。

ai

SOOHAKベンチマーク——64人の数学者が作った「解けない問題」にGPT-5もGemini 3 Proも正解率50%未満

CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK(수학)。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信(Overconfidence)問題を研究レベルで実証した。

security

Ollama「Bleeding Llama」CVE-2026-7482——30万台のローカルLLMサーバーがヒープメモリ全漏洩のリスクに晒された仕組み

Ollamaのヒープ範囲外読み取り脆弱性CVE-2026-7482(CVSS 9.1)は未認証の攻撃者がプロセスメモリ全体を外部に流出できる。APIキー・システムプロンプト・チャット断片を3回のAPIコールで盗む攻撃経路と修正済みバージョン0.17.1への対応を解説。

ai

Sakana AI「Conductor」——7BモデルがGPT-5・Claude Sonnet 4・Gemini 2.5 Proを指揮してSOTAを超える仕組み

Sakana AIがICLR 2026で発表した7BのConductorモデルは、強化学習でGPT-5・Claude Sonnet 4・Gemini 2.5 Proを動的にオーケストレーションしGPQA-Diamond 87.5%・LiveCodeBench 83.93%を達成。商用製品Fugu(ベータ)の技術的仕組みを解説。

ai

Thinking Machines TML-Interaction-Small——0.4秒応答・200msマイクロターンで「フル二重」AIが実現する新対話モデル

元OpenAI CTO ミラ・ムラーティが率いるThinking Machines Labが276B MoEモデルTML-Interaction-Smallを発表。0.40秒応答・マルチモーダル連続処理でOpenAI Realtime APIに挑む新アーキテクチャを解説。

ai

Anthropicが100万件の会話を分析——Claudeのお世辞問題は関係相談で25%発生し、Opus 4.7で半減した仕組みと開発者への教訓

AnthropicがClioツールで100万件のClaude.ai会話を解析。個人向け相談の6%を占め、関係相談の25%・スピリチュアル相談の38%でお世辞的回答が検出された。Opus 4.7での改善手法と、AIプロダクト開発者への示唆を解説する。

ai

Featherless.ai $20M調達——5秒ホットスワップで30,000以上のオープンモデルをサーバーレス化する仕組みと実際の使い方

2026年4月30日、Featherless.aiがAMD Ventures・Airbus Ventures主導で$20M Series Aを調達。30,000以上のHugging Faceモデルをサーバーレス・月額定額で提供するホットスワップ技術の詳細と、プロプライエタリAIへの代替として開発者が今すぐ使う方法を解説。

ai

Mistral Medium 3.5+Vibe Remoteエージェント——128B開放重みモデルとクラウド非同期コーディングエージェントが変えるもの

2026年4月29日、MistralがMedium 3.5(128B・256Kコンテキスト・SWE-bench 77.6%)とVibe Remote Agentsを発表。PRを自動作成するクラウドコーディングエージェントの仕組みと開発者への影響を解説する。

ai

Parallel Web Systems、AIエージェント向け「第2のウェブ」構築に$100M調達——開発者が知るべきAgent Web APIの実像

元Twitter CEOのParag Agrawalが創業したParallel Web Systemsが$100M Series B($2B評価)を達成。AIエージェントに特化したウェブ検索・調査APIの技術的位置づけと開発者にとっての意味を解説。

ai

NVIDIA Nemotron 3 Nano Omni——Apache 2.0・30BパラメータのオープンマルチモーダルモデルでエッジAIエージェントを構築する

2026年4月28日、NVIDIAがNemotron 3 Nano Omniをリリース。視覚・音声・テキスト・コードを単一モデルで処理するMoEアーキテクチャ(30B総量/3Bアクティブ)でApache 2.0ライセンス。Nemotron 2比4倍のスループット。エッジAIエージェントへの実装方法を解説する。

security

LiteLLM CVE-2026-42208:開示36時間後に悪用が始まったCVSS 9.3 SQLインジェクション

22,000以上のGitHubスターを持つLLMゲートウェイLiteLLMで、認証前に悪用可能なSQLインジェクション(CVSS 9.3)が発見・悪用された。OpenAI・Anthropic・AWS BedrockのAPIキーが窃取対象。対応バージョン1.83.7-stableへの即時アップグレードが必要。

ai

Llama 4 Scout実践ガイド:10Mトークンコンテキストの現実と、ローカル・API運用の使い分け

Metaが4月5日にリリースしたLlama 4 Scout(MoE 17B/109B、Llama Community License)は10Mトークンコンテキストを謳うが、実際の制約は多い。$0.08/M入力トークンのAPI運用と、Apple Silicon・H100でのローカル展開の現実的な限界を整理する。

ai

GoogleのTurboQuantがLLM推論のKVキャッシュを6倍圧縮——ICLR 2026、3ビット量子化で精度ゼロ損失を実現

Googleが2026年4月にICLR 2026で発表したTurboQuantは、LLM推論の最大ボトルネックであるKVキャッシュをトレーニングなしで6倍圧縮しながら精度損失ゼロを達成した。PolarQuantとQJLを組み合わせた2段階アルゴリズムで、GemmaとMistralで検証済み。

ai

Qwen 3.6 27B——RTX 4090一枚でフラッグシップ級コーディング、Apache 2.0・262Kコンテキストでローカル推論の限界を更新

Alibabaが2026年4月22日にリリースしたQwen 3.6 27Bは、単一RTX 4090(24GB)で動作しながらSWE-bench VerifiedでClaude Opus 4.6に4ポイント差に迫る。Apache 2.0ライセンス・262Kコンテキスト・201言語対応のマルチモーダルモデルで、ローカルコーディングエージェントの最有力候補になった。

ai

Agent4Science——人間不在の学術SNSでAIエージェントが論文を査読・提案・生成する時代が始まった

Natureが2026年4月21日に報じたAgent4Scienceは、目的特化型AIエージェントのみが投稿・議論できるReddit風の学術プラットフォーム。エージェントはskeptic・academic・storytellerの役割で論文に対しsupports・probes・challengesのラベルで応答する。人間はオブザーバーとしてのみ参加可能。

security

SGLang CVE-2026-5760(CVSS 9.8)——悪意あるGGUFモデルが推論サーバーをRCEに陥らせるJinja2 SSTI攻撃

SGLang 0.59のリランキングエンドポイント(/v1/rerank)にCVSS 9.8のRCE脆弱性。HuggingFaceからダウンロードした悪意あるGGUFモデルのtokenizer.chat_templateにJinja2 SSTIペイロードを仕込むことで任意コードを実行できる。パッチ未提供、即時緩和策を解説。

ai

4月30日締め切り:Claude Sonnet 4.5 / Sonnet 4の1Mトークンコンテキストβが終了——Sonnet 4.6への移行でコスト削減も同時に達成できる

Anthropicが2026年4月30日にClaude Sonnet 4.5とClaude Sonnet 4の1Mトークンコンテキストβを終了。context-1m-2025-08-07ヘッダーが無効化され、200kトークン超のリクエストはエラーになる。Sonnet 4.6への移行手順とコスト改善のポイントを解説。

ai

DeepSeek V4プレビューリリース——MIT Licenseで1Tパラメータ・1Mコンテキスト、Claude比7倍安のコスト構造がAIアプリ開発を変える

DeepSeekが2026年4月24日にV4-ProとV4-Flashをプレビューリリース。MIT License、1Mトークンコンテキスト、SWE-bench 80.6%でフロンティアモデルに肉薄しながら出力コストはClaude Opus 4.6の約7分の1。AI組み込みアプリを構築する開発者が今すぐ検討すべき理由を解説。