2025年04月08日 朝のAIニュースまとめ
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
Metaがベンチマーク操作を否定、OpenHands最高性能達成、OpenAIの革新的ハードウェア構想
AIの主戦場で大きな動きが続いています。Meta幹部がLlama 4のベンチマーク操作疑惑を明確に否定し、オープンソースのOpenHandsがコード修正ベンチマークで最高性能を達成。
一方、OpenAIはJony Ive氏との協業で「画面のないスマートフォン」などの革新的デバイス開発を検討中。Shopify CEOは「増員前にAIで生産性向上」を指示し、企業のAI活用方針として注目されています。
インフラ面ではOracleのOpenAI向けデータセンター建設に遅延リスクが報じられ、拡大するAI需要への対応が課題に。それでは各トピックの詳細を見ていきましょう。
目次
- Meta幹部、Llama 4ベンチマーク操作を否定
- MCPエコシステム: Cloudflareが機能強化も普及に懐疑論
- OpenHandsコードエージェント、ベンチマーク首位達成
- OpenAI、Ive-Altman企業買収で製品構想が明らかに
- Gemini 2.5 Pro、API利用制限に開発者から懸念の声
- OracleのOpenAI向けデータセンター建設に遅延リスク
- Shopify CEO「増員前にAIで生産性向上を」
- Kaggle March Madnessコンペに問題点指摘
- 自律型AIエンジニアDevinのモバイルアプリ開発活用事例
- 最新AI動向: 国産LLM進化とRAG有効性再確認
Meta幹部、Llama 4ベンチマーク操作を否定
- 前回報告されたLlama 4のベンチマーク信頼性問題について、Meta幹部が操作疑惑を明確に否定し、実装の安定化が必要との見解を示しました
- ユーザー評価では引き続きVision性能が高評価を得る一方、テキスト処理能力や信頼性については評価が分かれています
- 新たなベンチマーク結果では、Scout(109B)は要約や関数呼び出し、Maverick(400B)は開発者作業の代替に特に適していることが示されています
Kol Tregaskes: (翻訳) Metaは、テストセットでトレーニングしなかったことを確認しました。私たちが見ている品質のばらつきは、おそらく「実装を安定させる必要がある」ためです。
Yann LeCun: (翻訳) Llama-4に関するいくつかの明確化。
TechCrunch: (翻訳) Meta幹部は、同社がLlama 4のベンチマークスコアを人為的につり上げたと否定 https://t.co/z9vq4EgiTq
Kol Tregaskes: (翻訳) xjdrによる現在のオープンモデルの非常に良い要約 Tldr: Llama 4 Scout: - 要約と関数呼び出しに優れており、強力なシングルショットICLリコールを備えたコーディングフローやRAGアプリケーションに最適です。 Llama 4 Maverick: - 開発者の代替として設計されており、一貫性があります
ぱぷりか炒め: llama4はオープンなvisionモデルではかなりvision良い印象。 テキストは日本語できてはいるけどデータ量のせいなのか分からんが惜しい感じする。 もうちょい下のサイズのモデル出してくれ…でかすぎる
MCPエコシステム: Cloudflareが機能強化も普及に懐疑論
- MCPに関する議論の続報です。CloudflareがAI Agents向けSDKやMCP関連機能を強化するなど、エコシステム構築に向けた動きが進んでいます
- 一方で、過去のChatGPT Pluginがあまり普及しなかった経験から、MCPの将来性についても懐疑的な見方が出ています
- セキュリティ面では、MCPを狙ったサプライチェーン攻撃の可能性が新たに指摘され、開発者の間でセキュリティ対策の重要性が再認識されています
Kenn Ejima: 早くもMCPターゲットのサプライチェーン攻撃?が登場
Hirosato Gamo | AI Cloud Solution Architect: MCPサーバのマーケットプレイスみたいな話に静観気味なのも、ChatGPT黎明期のPluginがほぼ同じ技術・コンセプトであまり普及しなかったのを目の当たりにしたもんだから、2回目のチャレンジだと今更ワクワク期は過ぎていて「今度は上手くいくと良いな…」って感覚。あん時もZapierのAPIに繋いでたな…
Hirosato Gamo | AI Cloud Solution Architect: 企業サービスのAPIに繋ぐのは言うほど有用な選択肢が無いような気もしてるのよね。Pluginも結局スマホ開いてChatGPTから呼ぶくらいならアプリ自分で開いた方が早えってなったんだと思ってる。
Iaiso: > Durable Objectsが無料枠に 何〜ッ?!
Shinichi Takaŷanagi: 著名VC アンドリーセン・ホロウィッツ (a16z) からMCP の解説記事が出ていた。MCPとは?に始まり、ユースケース、現状と課題(認証・認可、等)、AIツールの未来予想など、とても参考・勉強になる。 A Deep Dive Into MCP and the Future of AI Tooling https://t.co/AbcbsJJiUm
OpenHandsコードエージェント、ベンチマーク首位達成
- オープンソースのコーディングエージェントOpenHandsが、多言語コード修正ベンチマークMulti-SWE-Benchで最高性能を達成しました。
- この結果はコーディングエージェントの進化を示す重要な指標となり、オープンソースモデルの競争力の高まりを示しています。
- モデル性能向上に伴い、既存コードをAIで書き直すアプローチの有効性も専門家の間で議論されています。
All Hands AI: (翻訳) OpenHandsは、8つの異なる言語でコーディングエージェントをテストするための新しいベンチマークであるMulti-SWE-Benchで最高のエージェントです!私たちは改善を続けます。OpenHandsでどの言語に取り組みたいですか?
Kazutaka Matsumoto@EXPLAZA CTO: 「エンジニアにコーディング禁止してAIだけにした」結果について赤裸々に話させてもらってます! 最初はみんなモチベーション高かったんだが…的な話してます! よかったらご覧ください!良いトライでした! | 1週間、人力コーディング禁止→結果は“成果半減”
mizchi: 設計方針自体がすでに存在するとき、コードを書く速度自体は問題になりにくくて実装捨てて仕様を引き継ぐ方針は現時点で結構有用で、特に今はモデル性能が放っといても向上するのでモデル変えて再生成が結構有用
OpenAI、Ive-Altman企業買収で製品構想が明らかに
- 先日報じられたOpenAIによるSam AltmanとJony Ive氏の新会社買収検討について、開発中の製品コンセプトが明らかになりました
- 検討されているのは「画面のないスマートフォン」や「AI搭載家電」など、従来の枠を超えた革新的デバイスとされています
- 製品も売上もない段階のスタートアップに対する5億ドル超の大型買収検討は、AIハードウェア市場への強い期待感を反映しています
久保田 雅也@Coalis: ジョニー・アイブとサム・アルトマンのAIデバイス・スタートアップ買収をOpenAIが検討と。売上も、製品すらない会社を$500Mでアクハイアかも。解任された以前のOpenAIの取締役会が見たらブチ切れしそうな事案w https://t.co/OYpNGOpy6Y
TechCrunch: (翻訳) OpenAIがジョニー・アイブとサム・アルトマンのAIハードウェアスタートアップ買収を検討中と報じられる https://t.co/ExJBByjkSw
The Information: (翻訳) 独占:OpenAIがジョニー・アイブとサム・アルトマンのAIデバイススタートアップ買収を議論 OpenAIは、ジョニー・アイブのスタジオが共同設立したAI搭載パーソナルデバイス開発スタートアップの買収を議論した。🤖 潜在的な買収価格は5億ドル超だった。 この#AIハードウェアの詳細
The Information: (翻訳) OpenAIがジョニー・アイブとサム・アルトマンのAIデバイススタートアップ買収を議論 io Productsが開発したAIデバイスの潜在的なデザインはまだ初期段階で最終決定されておらず、画面のない「電話」やAI対応家電などのコンセプトが含まれている。📱💡
Gemini 2.5 Pro、API利用制限に開発者から懸念の声
- 前回報じたGemini 2.5 Proの数学的能力の高さに加え、新たな課題が浮上しています。開発者からはAPIの利用制限(レートリミット)が厳しく、本格的なアプリケーション開発の障壁になる可能性が指摘されています。
- 一方で、Android端末での画面共有機能や、画像に関する複雑な質問への対応など、ユーザー向け機能の拡張も着実に進んでいます。
Oriol Vinyals: (翻訳) どういうわけかこれを見逃していました、すごい! USAMOのソリューションから、他のモデルと比較した改善点の分析はありますか? ♊️
The Information: (翻訳) 開発者はGemini 2.5 Proの使用制限について不満を述べており、その印象的なパフォーマンスにもかかわらず採用を妨げる可能性があります。🛑 Geminiの採用課題:https://t.co/Ilab7NQjN9 #AITools
Kol Tregaskes: (翻訳) 新しいAndroidスマートフォンでGeminiと画面またはカメラを共有できるようになりました。 @OpenAI、Windowsデスクトップアプリでこれが欲しいのですが、そのアプリを覚えていますか? 😉
TechCrunch: (翻訳) GoogleのAIモードで、ユーザーは画像について複雑な質問をすることができるようになりました https://t.co/F2dYnDO9wi
OracleのOpenAI向けデータセンター建設に遅延リスク
- AI開発競争を支えるインフラ整備に課題発生。OracleがOpenAI向けに建設中の巨大データセンターに遅延リスクが報じられています
- Nvidia CEOは半導体輸出規制強化が中国企業の競争力を高める可能性を警告しており、半導体供給網の動向も注目されます
The Information: (翻訳) 独占:OpenAIデータセンター完成に向けOracleへの圧力高まる Oracleは、テキサス州アビリーンにあるOpenAI向けの巨大データセンターを迅速に完成させるよう圧力を受けており、さもなければ有利な契約を失うリスクがある。 @anissagardizy8 の詳細を読む👇
The Information: (翻訳) 独占:OpenAIデータセンター完成に向けOracleへの圧力高まる Oracleは、テキサス州アビリーンにあるOpenAI向けの巨大データセンター完成への圧力を受けており、遅延した場合、潜在的な財務的影響がある。😬 OracleのAIインフラ推進の詳細:https://t.co/5XA4724uUf
The Information: (翻訳) Google、CoreWeaveからNvidia AIサーバーをレンタルする高度な交渉中 GoogleやOpenAIなどの巨人によるNvidiaチップ争奪戦は、AI競争の激しい競争とインフラ需要を浮き彫りにしている。🏁 AIチップ市場の詳細:https://t.co/ML1mpl6p0e
The Information: (翻訳) Nvidia CEOのジェンスン・フアン氏は、厳しい輸出規制がHuaweiのような中国の競争相手を後押しすることを恐れて警告している。⚠️ Nvidiaの戦略的視点:https://t.co/N4I5hZQyfO #ExportControls
Shopify CEO「増員前にAIで生産性向上を」
- ShopifyのCEOであるTobi Lütke氏が社内メモで、チーム拡大の前にAIを活用して生産性を向上させることを検討するよう指示したことが話題になっています。
- 同氏はAIを新しいスキルとして習得する努力の重要性と、その見返りの大きさを強調しています。
- この方針は、AIによる業務効率化と組織運営の変化を示唆するものとして注目されています。
TechCrunch: (翻訳) Shopify CEO、人員増強前にAI活用を検討するようチームに指示 https://t.co/ZvF2nEswvl
Kevin Weil 🇺🇸: (翻訳) @tobiからのAI活用加速に関する素晴らしいメモ。他の新しいスキルと同様に、努力が必要ですが、その見返りは莫大です。
morgan —: https://t.co/XbMJF2A09t
Kaggle March Madnessコンペに問題点指摘
- Kaggleで開催されたバスケットボールの勝敗予測コンペ「March Madness」について、参加者から問題点が指摘されています。
- 1位のアカウントが削除済みであることや、公開ノートブックをフォークしただけで高得点を得た参加者が多数いることが報告されています。
- コンペティションの公平性やメダル・賞金の妥当性について疑問の声が上がっています。
Ahmet Erdem: (翻訳) March Madnessコンペの1位は削除されたアカウントです。そして、シルバーゾーン全体が同じスコアなのは、うまくギャンブルした公開ノートブックをフォークしたからです。このコンペがメダルや賞金を与えるなんて信じられません。
自律型AIエンジニアDevinのモバイルアプリ開発活用事例
- 自律型AIソフトウェアエンジニアとして注目を集めるDevinについて、モバイルアプリ開発での具体的な活用事例が報告されています
- AIエージェント開発の現場では、品質担保や開発サイクルの確立が課題となっており、関連イベントでも議論が予定されています
- 先日AIエージェント事業に本格参入を発表したLayerXも専門研究開発チームを設立し、業務自動化への実用化を加速させています
松本 勇気 | LayerX: 「すべての経済活動のデジタル化」への道が見えてきました。長期でこのAgentic AI領域にコミットしていくため、必要な技術を先回りしてR&Dする研究開発チームAI Automation Labも立ち上げます。 LayerXのバクラクAIエージェント事業についての解説|福島良典 | LayerX https://t.co/D2qewfua9M
小賀昌法 KOGA Masanori: AIエージェント関連の新規事業、新規プロダクトにもBetしていくぞ! 採用強化中ですのでご興味ある方は気軽にご連絡ください。 LayerX、AIエージェント事業を開始。AIを活用して、業務の「完全自動運転」を目指す https://t.co/aIe9SN401P @PRTIMES_JPより
Algomatic池田|AI×営業: AIエージェントサービスを始めている企業さんが増えてきている!市場が盛り上がって良いですね!!
Yuki Nagae (´∀`) | 生成AI × エンジニア組織支援: Devinのモバイルアプリ事例珍しい(´∀`) Devinを使ったモバイルアプリ開発 - Devinはマルチプラットフォーム対応の銀の弾丸になりえるか - - inSmartBank https://t.co/HV1RjLDzdY
Iaiso: 貴重なDevinを使ったネイティブアプリ開発記録 https://t.co/U9zDXc8EFe Linuxで開発できるAndroid
s-miyawaki | Algomatic: 明日はこちらのイベントで登壇します🙌 https://t.co/DVThfcpNIi AIエージェントの地上戦(当たり前品質をどう担保するか)をテーマに、開発サイクルについてお話しする予定です! Elith本『やさしく学ぶLLMエージェント』のプレゼント企画あるそうなので、ぜひご参加ください!📚 #AIエージェント
最新AI動向: 国産LLM進化とRAG有効性再確認
- 国産LLM開発プロジェクトLLM-jpから、学習済みモデル「LLM-jp-3」を基にした高性能モデルが近くリリースされる見込みです。
- Amazonが開発中のAI動画生成モデルが、数分間の長さのクリップを生成可能になったと発表しました。
- 長いコンテキスト対応LLMの登場にもかかわらず、RAG(検索拡張生成)技術は依然として重要であり、その活用法について改めて議論されています。
Odashi: LLM-jp-3の事後学習頑張ったモデルでなんかとても性能いいやつがあり、そのうちリリースされる気がします。
TechCrunch: (翻訳) Amazon、AI動画モデルが数分間のクリップを生成可能になったと発表 https://t.co/1n0O8i0hru
elvis: (翻訳) RAGが死んだかどうか確認しました。それが非常に生きており、プロンプトエンジニアリングも同様であることを報告できてうれしいです。ちなみに、エージェント型RAGも、特に長いコンテキストLLMと組み合わせると非常にうまく機能します。🙂
Hirosato Gamo | AI Cloud Solution Architect: あとRAG=検索エンジン連携と誤解されてる節がありますが、DBから取ろうが推薦システムから取ろうがRAGです。データソースは何でも良いのです。