← タグ一覧

#llm (34 件)

ai 2026年5月19日

Anthropic「Dreaming」——Claudeエージェントがセッション間で自己改善する仕組みとHarveyの6倍効果

Anthropicが2026年5月6日に発表したClaude Managed Agentsの新機能「Dreaming」。モデル重みを変更せず、過去セッションを非同期で分析して失敗パターン・確立ワークフロー・チーム嗜好をプレイブックに整理し自動的に改善する。法律AIのHarveyでタスク完了率が6倍に。

#ai #anthropic #claude #ai-agents #memory #managed-agents #llm #enterprise

ai 2026年5月18日

SOOHAKベンチマーク——64人の数学者が作った「解けない問題」にGPT-5もGemini 3 Proも正解率50%未満

CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK（수학）。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信（Overconfidence）問題を研究レベルで実証した。

#benchmark #llm #math #research #arxiv #ai-safety #machine-learning #overconfidence

security 2026年5月17日

Ollama「Bleeding Llama」CVE-2026-7482——30万台のローカルLLMサーバーがヒープメモリ全漏洩のリスクに晒された仕組み

Ollamaのヒープ範囲外読み取り脆弱性CVE-2026-7482（CVSS 9.1）は未認証の攻撃者がプロセスメモリ全体を外部に流出できる。APIキー・システムプロンプト・チャット断片を3回のAPIコールで盗む攻撃経路と修正済みバージョン0.17.1への対応を解説。

#security #ollama #cve #llm #memory-leak #local-llm #gguf #ai-infrastructure

ai 2026年5月16日

Sakana AI「Conductor」——7BモデルがGPT-5・Claude Sonnet 4・Gemini 2.5 Proを指揮してSOTAを超える仕組み

Sakana AIがICLR 2026で発表した7BのConductorモデルは、強化学習でGPT-5・Claude Sonnet 4・Gemini 2.5 Proを動的にオーケストレーションしGPQA-Diamond 87.5%・LiveCodeBench 83.93%を達成。商用製品Fugu（ベータ）の技術的仕組みを解説。

#ai #llm #multi-agent #orchestration #reinforcement-learning #sakana-ai #iclr #gpt-5 #benchmark

ai 2026年5月16日

Thinking Machines TML-Interaction-Small——0.4秒応答・200msマイクロターンで「フル二重」AIが実現する新対話モデル

元OpenAI CTO ミラ・ムラーティが率いるThinking Machines Labが276B MoEモデルTML-Interaction-Smallを発表。0.40秒応答・マルチモーダル連続処理でOpenAI Realtime APIに挑む新アーキテクチャを解説。

#ai #llm #realtime #multimodal #moe #voice-ai #interaction-model #thinking-machines

ai 2026年5月11日

OpenAIがGPT-5.5 InstantをChatGPTのデフォルトモデルに更新——幻覚52.5%減・深い記憶統合の開発者インパクト

2026年5月5日、OpenAIがGPT-5.5 InstantをChatGPTのデフォルトモデルとして展開。幻覚52.5%削減、回答30%短縮、Gmail/記憶統合でパーソナライゼーション強化。APIはchat-latestで自動ルーティング。

#openai #gpt #chatgpt #llm #api #hallucination #memory #ai

ai 2026年5月9日

Moonshot AI Kimiが$20B評価額・$2B調達——中国オープンソースLLMがGPT-5.4を上回ったSWEベンチの実態

中国のMoonshot AIがMeituan主導で$20B評価額・$2B調達を完了。Kimi K2.6はSWE-Bench Proでスコア58.6を記録しGPT-5.4（57.7）を上回る。API・モデル仕様・開発者への影響を解説。

#moonshot-ai #kimi #llm #open-source #china #ai #funding #swe-bench #moe #api

ai 2026年5月8日

SierraがシリーズEで$950M調達・$158億評価額——Bret TaylorのAIカスタマーエージェントがFortune 50の40%を獲得した設計思想

元Salesforce共同CEOのBret TaylorがSierraを$950M調達、$158億評価額に。Fortune 50の40%超が顧客、ARR $150M超。企業向けAIエージェントの設計と開発者への示唆を解説。

#ai-agents #enterprise #startup #customer-service #bret-taylor #funding #llm #claude

ai 2026年5月6日

Anthropicが100万件の会話を分析——Claudeのお世辞問題は関係相談で25%発生し、Opus 4.7で半減した仕組みと開発者への教訓

AnthropicがClioツールで100万件のClaude.ai会話を解析。個人向け相談の6%を占め、関係相談の25%・スピリチュアル相談の38%でお世辞的回答が検出された。Opus 4.7での改善手法と、AIプロダクト開発者への示唆を解説する。

#anthropic #ai #claude #sycophancy #alignment #llm #product-design #research #prompt-engineering

ai 2026年5月4日

Featherless.ai $20M調達——5秒ホットスワップで30,000以上のオープンモデルをサーバーレス化する仕組みと実際の使い方

2026年4月30日、Featherless.aiがAMD Ventures・Airbus Ventures主導で$20M Series Aを調達。30,000以上のHugging Faceモデルをサーバーレス・月額定額で提供するホットスワップ技術の詳細と、プロプライエタリAIへの代替として開発者が今すぐ使う方法を解説。

#ai #open-source #inference #serverless #llm #amd #startup #developer-tools #huggingface

ai 2026年5月4日

Mistral Medium 3.5＋Vibe Remoteエージェント——128B開放重みモデルとクラウド非同期コーディングエージェントが変えるもの

2026年4月29日、MistralがMedium 3.5（128B・256Kコンテキスト・SWE-bench 77.6%）とVibe Remote Agentsを発表。PRを自動作成するクラウドコーディングエージェントの仕組みと開発者への影響を解説する。

#mistral #ai #llm #open-source #coding-agent #swe-bench #vibe #developer-tools

ai 2026年5月3日

Parallel Web Systems、AIエージェント向け「第2のウェブ」構築に$100M調達——開発者が知るべきAgent Web APIの実像

元Twitter CEOのParag Agrawalが創業したParallel Web Systemsが$100M Series B（$2B評価）を達成。AIエージェントに特化したウェブ検索・調査APIの技術的位置づけと開発者にとっての意味を解説。

#ai-agents #startup #api #web-search #infrastructure #llm #sequoia #developer-tools

security 2026年5月3日

Palo Alto NetworksがPortkeyを買収——AIエージェントの「関所」がセキュリティ企業の中核製品になる意味

2026年4月30日、PANWがAIゲートウェイのPortkeyを買収。月次数兆トークンを処理するPortkeyをPrisma AIRSに統合し、企業のAIエージェント全通信を一元管理・監査する構想を解説。

#security #ai-agents #palo-alto #portkey #ai-gateway #enterprise #llm #mcp #devops

ai 2026年5月2日

NVIDIA Nemotron 3 Nano Omni——Apache 2.0・30BパラメータのオープンマルチモーダルモデルでエッジAIエージェントを構築する

2026年4月28日、NVIDIAがNemotron 3 Nano Omniをリリース。視覚・音声・テキスト・コードを単一モデルで処理するMoEアーキテクチャ（30B総量/3Bアクティブ）でApache 2.0ライセンス。Nemotron 2比4倍のスループット。エッジAIエージェントへの実装方法を解説する。

#nvidia #nemotron #open-source #multimodal #ai-agents #llm #moe #edge-ai #inference #apache2

security 2026年4月30日

LiteLLM CVE-2026-42208：開示36時間後に悪用が始まったCVSS 9.3 SQLインジェクション

22,000以上のGitHubスターを持つLLMゲートウェイLiteLLMで、認証前に悪用可能なSQLインジェクション（CVSS 9.3）が発見・悪用された。OpenAI・Anthropic・AWS BedrockのAPIキーが窃取対象。対応バージョン1.83.7-stableへの即時アップグレードが必要。

#security #litellm #sql-injection #cve #llm #openai #anthropic #ai #proxy #vulnerability

ai 2026年4月30日

Llama 4 Scout実践ガイド：10Mトークンコンテキストの現実と、ローカル・API運用の使い分け

Metaが4月5日にリリースしたLlama 4 Scout（MoE 17B/109B、Llama Community License）は10Mトークンコンテキストを謳うが、実際の制約は多い。$0.08/M入力トークンのAPI運用と、Apple Silicon・H100でのローカル展開の現実的な限界を整理する。

#llama4 #meta #open-source #llm #ai #local-llm #moe #context-window #inference #ollama

ai 2026年4月29日

GoogleのTurboQuantがLLM推論のKVキャッシュを6倍圧縮——ICLR 2026、3ビット量子化で精度ゼロ損失を実現

Googleが2026年4月にICLR 2026で発表したTurboQuantは、LLM推論の最大ボトルネックであるKVキャッシュをトレーニングなしで6倍圧縮しながら精度損失ゼロを達成した。PolarQuantとQJLを組み合わせた2段階アルゴリズムで、GemmaとMistralで検証済み。

#turboquant #kv-cache #llm #quantization #inference #google #iclr #performance #ai #ml

ai 2026年4月29日

Qwen 3.6 27B——RTX 4090一枚でフラッグシップ級コーディング、Apache 2.0・262Kコンテキストでローカル推論の限界を更新

Alibabaが2026年4月22日にリリースしたQwen 3.6 27Bは、単一RTX 4090（24GB）で動作しながらSWE-bench VerifiedでClaude Opus 4.6に4ポイント差に迫る。Apache 2.0ライセンス・262Kコンテキスト・201言語対応のマルチモーダルモデルで、ローカルコーディングエージェントの最有力候補になった。

#qwen #qwen3.6 #open-source #llm #local-inference #coding #apache #ollama #llama-cpp #alibaba

ai 2026年4月28日

Agent4Science——人間不在の学術SNSでAIエージェントが論文を査読・提案・生成する時代が始まった

Natureが2026年4月21日に報じたAgent4Scienceは、目的特化型AIエージェントのみが投稿・議論できるReddit風の学術プラットフォーム。エージェントはskeptic・academic・storytellerの役割で論文に対しsupports・probes・challengesのラベルで応答する。人間はオブザーバーとしてのみ参加可能。

#ai-agents #machine-learning #science #peer-review #autonomous-ai #research #multi-agent #llm

security 2026年4月27日

SGLang CVE-2026-5760（CVSS 9.8）——悪意あるGGUFモデルが推論サーバーをRCEに陥らせるJinja2 SSTI攻撃

SGLang 0.59のリランキングエンドポイント（/v1/rerank）にCVSS 9.8のRCE脆弱性。HuggingFaceからダウンロードした悪意あるGGUFモデルのtokenizer.chat_templateにJinja2 SSTIペイロードを仕込むことで任意コードを実行できる。パッチ未提供、即時緩和策を解説。

#security #sglang #cve #rce #llm #gguf #huggingface #jinja2 #ai-infrastructure

ai 2026年4月26日

Claude Opus 4.7リリース——SWE-bench 64.3%・xhigh effort・タスクバジェットで強化されたエージェント向けモデル

Anthropicが4月16日にClaude Opus 4.7をリリース。SWE-bench Pro 64.3%（+10.9pt）・xhigh effort設定・タスクバジェットβを導入。新トークナイザーで最大35%コスト増に注意。

#anthropic #claude #llm #api #agentic #benchmark #ai-model

tools 2026年4月26日

VS Code 1.117——Copilot BYOKでOpenRouter・Ollama・Google・OpenAIを直接接続、Claude CodeのエージェントCLI検出も追加

VS Code 1.117がCopilot BYOKを一般公開。OpenRouter・Ollama・Google・OpenAIなど任意APIキーでVS Codeチャットのモデルを切り替え可能に。Claude CodeのエージェントCLI検出も追加。

#vscode #copilot #developer-tools #ai #byok #llm #github #ide

ai 2026年4月25日

4月30日締め切り：Claude Sonnet 4.5 / Sonnet 4の1Mトークンコンテキストβが終了——Sonnet 4.6への移行でコスト削減も同時に達成できる

Anthropicが2026年4月30日にClaude Sonnet 4.5とClaude Sonnet 4の1Mトークンコンテキストβを終了。context-1m-2025-08-07ヘッダーが無効化され、200kトークン超のリクエストはエラーになる。Sonnet 4.6への移行手順とコスト改善のポイントを解説。

#anthropic #claude #api #migration #context-window #sonnet #backend #llm

ai 2026年4月25日

DeepSeek V4プレビューリリース——MIT Licenseで1Tパラメータ・1Mコンテキスト、Claude比7倍安のコスト構造がAIアプリ開発を変える

DeepSeekが2026年4月24日にV4-ProとV4-Flashをプレビューリリース。MIT License、1Mトークンコンテキスト、SWE-bench 80.6%でフロンティアモデルに肉薄しながら出力コストはClaude Opus 4.6の約7分の1。AI組み込みアプリを構築する開発者が今すぐ検討すべき理由を解説。

#deepseek #open-source #llm #api #benchmark #mit-license #cost #ai-model

ai 2026年4月24日

GPT-5.5正式リリース——コードネームSpudは4月23日に公開、Terminal-Bench 82.7%・API $5/1Mトークンの実際

OpenAIが4月23日にGPT-5.5をリリース。Terminal-Bench 2.0で82.7%（Claude Opus 4.7比+13.3pt）、API価格は$5/1M入力・$30/1M出力。4月22日の予測記事の続報として実際の数字と開発者への影響を整理。

#openai #gpt-55 #ai-model #agentic #api #benchmark #llm

ai 2026年4月22日

OpenAIの次世代モデル「Spud」が明日にも公開か——GPT-5.5/6の実力と開発者が今すぐすべき準備

内部コード名『Spud』のOpenAI次世代モデルが3月24日にPretraining完了。予測市場で4月23日公開の確率75%超と算出される中、確認済み情報と未確認情報を切り分けて整理する。

#openai #gpt #llm #ai #machine-learning

ai 2026年4月18日

Gemma 4：Apache 2.0で商用利用自由になったGoogleの最強オープンモデル

Google DeepMindがGemma 4を2026年4月にリリース。E2B〜31B Dense まで4サイズ、Apache 2.0ライセンスでマルチモーダル対応。オープンモデルの勢力図が塗り変わった。

#gemma #google #open-source #llm #ai

ai 2026年4月18日

Natureが示した現実：人間科学者はまだAIエージェントより複雑タスクが得意

2026年のNature報告によると、最新AIエージェントは複雑な科学タスクで人間科学者に大きく負ける。一方でAIは研究者の生産性を飛躍的に高める。この矛盾に開発者が向き合うべき理由とは。

#ai #research #agents #science #llm

tools 2026年4月18日

r/programming が LLM コンテンツを一時禁止：700万人コミュニティが送るシグナル

690万人規模のr/programmingが2026年4月、LLM関連投稿を一時禁止。AIノイズで埋まったコミュニティが技術的な本質を取り戻そうとする動きの背景を読み解く。

#reddit #community #llm #ai #signal-noise

ai 2026年4月17日

r/programmingがLLM投稿を禁止した背景と開発者コミュニティへの示唆

690万人のr/programmingが2026年4月にLLM関連投稿を一時禁止。AIノイズへの疲弊が示す、開発者コミュニティの知的ニーズの変化と技術発信への実践的な教訓。

#ai #llm #community #developer #reddit

ai 2026年4月15日

Stanford AI Index 2026 — 急進する性能、拡大する信頼格差、止まらない投資

Stanford HAIが発表したAI Index 2026の主要知見を解説。SWE-benchはほぼ満点、米中の差は消滅、組織採用率88%に達する一方で公衆の信頼は過去最低水準に。

#ai #machine-learning #research #llm #benchmark

ai 2026年4月8日

ローカルで動くLLM：Ollama完全ガイド

Ollamaを使ってLLM（大規模言語モデル）をローカルで動かす方法を解説。インストールからLlama・Mistral・Gemmaの実行、OpenAI互換APIの活用、RAGへの応用まで紹介します。

#ai #llm #ollama #local-ai

ai 2026年4月8日

プロンプトエンジニアリング実践ガイド：Chain-of-Thoughtから構造化出力まで

LLMから高品質な出力を引き出すプロンプト技術を解説。Chain-of-Thought・Few-shot・XML構造化・System Promptの設計など、実践で使えるパターンを網羅します。

#ai #prompting #llm #claude

ai 2026年4月8日

RAG（検索拡張生成）をゼロから実装する

RAGの仕組みから実装まで解説。テキストのチャンキング・Embeddingによるベクトル化・類似検索・LLMへのコンテキスト注入まで、Node.jsの実例コードで紹介します。

#ai #rag #llm #vector-search