2026年05月26日 夜のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

GPT-5.5のコーディング能力への評価とLLMの推論に関する最新研究

著名開発者からGPT-5.5の圧倒的なコーディング能力を絶賛する声が相次いでいます。

また、LLMが自信満々に嘘をつく理由や、マルチエージェント環境での同調圧力が推論を悪化させる可能性など、AIの挙動に関する興味深い研究が報告されました。

中国によるトップAI人材の渡航制限といった動向も注目を集めています。

本日の主要なニュースの詳細を順に確認していきましょう。

目次

  1. DHHら著名開発者がGPT-5.5のコーディング能力を絶賛
  2. Grok BuildがX Premium+等で利用可能に【続報】
  3. Googleの論文:LLMが自信満々に嘘をつく理由を解明
  4. マルチエージェントシステムがLLMの推論を悪化させる可能性
  5. 中国がトップAI人材の海外渡航を制限
  6. GeminiにExtra High思考レベル導入の可能性
  7. Anthropic、Claude Code用公式プラグイン公開
  8. AmazonやMetaが社内AI利用をゲーム化し消費促進【続報】
  9. SoftBankのOpenAI出資枠が約650億ドルの価値に【続報】

DHHら著名開発者がGPT-5.5のコーディング能力を絶賛

  • DHH(David Heinemeier Hansson)がGPT-5.5のコーディング能力を「圧倒的最強」と絶賛しています。
  • 数十万から数百万行規模のコードベースでも手放し運転が可能になっていると評価しています。
  • 他の開発者からも、GPT-5.5の能力に驚愕する声が相次いでいます。
Kenn Ejima: DHHも手放しコーディングしてるってよ GPT-5.5が圧倒的最強という評価も同じ 他のOSSオーナーの評価をみてもだいたい 数十万〜200-300万LoC規模のコードベース では手放し運転が可能になってる印象 これが数百万〜数千万行レベルのコードを 扱えるようになると世界のほぼ全ての

Romain Huet: (翻訳) DHHからのこの発言を見るのは非常に特別です。GPT-5.5で構築していると、同じように感じずにはいられません。

Grok BuildがX Premium+等で利用可能に【続報】

  • xAIのコーディングエージェント「Grok Build」に関する続報です。
  • 利用対象が拡大し、X Premium+およびSuperGrokユーザーも利用可能になりました。
  • 1コマンドでの導入に対応したほか、入力画像のプレビュー機能などが新たにサポートされています。
  • サブエージェントの並列実行などの強力な機能が、より幅広いユーザーに提供されることになります。
Publickey: xAIがコーディングエージェント「Grok Build」ベータ公開。サブエージェントを並列に実行可能など https://t.co/BrvRWLGY12

Oikon: X Premium+で Grok Buildが使えるようになってる! 1コマンドで導入可能とのこと: curl -fsSL https://t.co/XUaPoyaD7g | bash

Tech Dev Notes: (翻訳) Grok Buildは入力に貼り付けられた画像のプレビューをサポートしています

Googleの論文:LLMが自信満々に嘘をつく理由を解明

  • Google Researchが、LLMが単純な事実問題で自信満々に間違える理由を解明した論文を発表しました。
  • モデルは自分が知っていることと推測していることを確実に区別できないことが原因とされています。
  • ハルシネーション対策として、確信を装うのをやめ、不確かな時は明確に示すべきだと提唱されています。
Rohan Paul: (翻訳) Googleの新しい論文によると、LLMは確信を装うのをやめ、不確かな時は明確に示すべきだとしています。ハルシネーションは機械が間違っていることよりも、ためらうべき時に確信を持っているように聞こえることの問題です。その区別が対象となる問題を変えます。

Kazunori Sato: ハルシネーションはLLMが回答に自信のないときに発生するから、「俺これ自信ないな」ってメタ認知をモデルに組み込む必要性を指摘。感想:昔のベイジアンNNでは推論の不確かさを扱ってたけど、計算量の問題でLLMに適用するのは難しいかな。NN推論の話とLLM挙動の話を比べるのは無理あるかもだけど。

マルチエージェントシステムがLLMの推論を悪化させる可能性

  • マルチエージェントシステムが必ずしもLLMの推論を向上させないことを示した論文が話題です。
  • LLMは相手に話を合わせるように学習されているため、マルチエージェント環境では同調圧力に負けて大勢の意見に流されがちになります。
  • その結果、独自の正しい推論をしていても途中で放棄してしまうケースが頻発することが報告されています。
Kazunori Sato: これ面白かった。雑理解:LLMは相手に話を合わせるように学習されてるから、マルチエージェント環境ではたとえ自分なりの推論をしていても、同調圧力に負けて大勢の意見に流されがち。そしてボールを落としてしまう(どこの職場の話なんだw)

中国がトップAI人材の海外渡航を制限

  • 中国政府が、AlibabaやDeepSeekなどの民間企業に所属するトップAI人材の海外渡航を制限し始めました。
  • これは自国の技術を保護し、重要な分野で米国に追いつくための措置の強化と見られています。
  • 戦略的に重要とされる高度なAI開発に関わる人材が対象となっています。
Bloomberg: (翻訳) 中国は、AlibabaやDeepSeekなどの民間企業のトップAI専門家の海外渡航を制限しており、技術を保護し、重要な分野で米国に追いつくための措置をエスカレートさせていることを示唆しています。政府機関は制限を課し始めています。

Bloomberg: (翻訳) 情報筋によると、中国は高度な業務に携わり、国にとって戦略的に重要と見なされるトップAI人材に制限を課しているとのことです。

GeminiにExtra High思考レベル導入の可能性

  • GoogleがGeminiモデルに対し、OpenAI等と同様のExtra High(XHigh)思考レベル導入を準備中と報じられています。
  • この新機能は、次期モデルであるGemini 3.5 Proと同時にローンチされる可能性が高いと推測されています。
Kol Tregaskes: (翻訳) GeminiにExtra High (XHigh) 思考レベルがまもなく登場?おそらくGemini 3.5 Proと共に。

Anthropic、Claude Code用公式プラグイン公開

  • Anthropicが、Claude Codeのセットアップを大幅に簡略化する公式プラグインを無料でリリースしました。
  • これまで手動で行う必要があったMCPサーバーの接続などの面倒な設定作業が自動化されます。
  • 開発者の導入ハードルを下げるツールとして歓迎されています。
CyrilXBT: (翻訳) Anthropicは、Claude Codeのセットアップで最も苦痛な部分を排除する公式プラグインをリリースしました。しかも100%無料です。これが解決する問題は以下の通りです。Claude Codeを正しくセットアップするには、どのMCPサーバーを接続するかを手動で把握する必要がありました。

AmazonやMetaが社内AI利用をゲーム化し消費促進【続報】

  • 従業員のAIツール空回し問題に関する続報です。
  • AmazonやMetaが社内のリーダーボードを用いて、従業員のAI使用メトリクスをゲーム化していることが報告されました。
  • 従業員に対してトークン消費を最大化するよう促す仕組みになっており、実際のタスク効率とは無関係にAI利用を過度に増やそうとする圧力が働いていると懸念されています。
t.toda: https://t.co/7Jtaaz3Ads AmazonやMetaが社内リーダーボードでAI使用メトリクスをゲーム化し、従業員にトークン消費を最大化するよう促しているらしい 取り組みとしては一見良さそうだが、実際のタスク効率とは関係なくAI利用を過度に増やそうとする圧力が働いているそう

SoftBankのOpenAI出資枠が約650億ドルの価値に【続報】

  • SoftBankによるOpenAIへの投資および同社のIPO計画に関する続報です。
  • OpenAIが数日中にIPOを申請する準備を進めているとの報道に伴い、SoftBankの出資ポジションの価値が推測されています。
  • 密かに築き上げてきた同社の出資枠は、現在約650億ドルの価値に達していると見られています。
Evan: (翻訳) SoftbankのOpenAIにおけるポジションは現在約650億ドルの価値があります

Subscribe to ML_Bear Times

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください