2025年04月09日 夜のAIニュースまとめ
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
【注目集まる】Gemini Deep Research進化、a16z超大型AI投資ファンド検討へ
Gemini 2.5 ProでDeep Research機能が大幅に性能向上し、46ページに及ぶレポート生成も可能になりました。一方、Andreessen Horowitz(a16z)は約3兆円規模のAI特化ファンド組成を検討中と報じられています。
OpenAIのアルトマンCEOは「今はテック起業に最適な時期」と語り、同社のSDKも日本語化が進行。また、Googleからは「Gemini 2.5 Flash」のプレビュー版がSDKに追加され、ChatGPT Webにも音声入力機能の展開が始まりました。
それでは、これらの最新動向について詳しく見ていきましょう。
目次
- Gemini Deep Research、2.5 Pro版で性能向上
- Llama 4続報: 性能評価のばらつきや技術詳細の分析進む
- MCP続報: Prismaがサーバー公開、VSCode拡張も登場
- OpenAIアルトマン氏「今は起業の好機」、仲間探しを強調
- a16z、200億ドル規模のAI特化ファンド組成を検討
- Gemini 2.5 Flashプレビュー版、Google SDKに追加
- ChatGPT Web版に音声入力機能が展開開始
- ベクトル検索の限界と課題、MCP/RAGでの最適解は?
- AIスタートアップ活況: 元OpenAIメンバー新会社、Starday、Arena AI
- その他AI動向: OpenAI SDK日本語化、Amazon新音声モデル等
Gemini Deep Research、2.5 Pro版で性能向上
- GeminiアプリのDeep Research機能がGemini 2.5 Proで動作するようになり、性能が大幅に向上したと報告されています。
- ユーザーからは、46ページに及ぶ詳細なレポート生成能力や、ChatGPT版Deep Researchと比較しての優位性を指摘する声が上がっています。
- 一方で、生成されるレポートの情報密度や冗長性については、まだ改善の余地があるとの意見も見られます。
Kol Tregaskes: (翻訳) Gemini 2.5 Pro Deep Researchは、2.0よりもはるかに長く、OpenAIのDRに匹敵する46ページもの巨大なレポートを生成しました! これは素晴らしい! 以下と同じプロンプトとプランを使用しました(ええ、最高ではありませんが、これは以前のすべてのDRから得た唯一まともなクエリです)。138件引用しています https://t.co/R42hMchs2h
限界助教|ChatGPT/Claude/Geminiで論文作成と科研費申請: GoogleのDeep Researchの裏で動いてるモデルがGemini2.5Proに変更された模様 以前モデルがGemini1.5から2.0になった時と同じ位の性能の向上を感じます 詳細なレポート+論文のまとめの表も作成してくれたりして、ChatGPTのDeep Research超えてきてる印象です👀
Nathan Lambert: (翻訳) 私にとってのTLDRは、gemini 2.5 deep researchはChatGPTよりも冗長であり、少なくとも情報密度は低いですが、10倍安く、どちらも使いにくいため品質は同程度であるということです。
Llama 4続報: 性能評価のばらつきや技術詳細の分析進む
- Llama 4について、プロバイダー間でのパフォーマンスのばらつきが指摘されており、リリースを急いだ可能性が議論されています。
- MaverickとScoutモデルの技術詳細(MoEとDense層の混合、L2 Norm使用など)に関する分析も共有されています。
- ARC-AGIベンチマークでは、推論能力で他のモデルに劣るとの見方もあり、今後の改善が期待されます。
The Information: (翻訳) Llama 4の不安定なデビュー MetaはLlama 4をリリースしましたが、そのパフォーマンスはプロバイダーによって「まちまち」で「変動」しており、急いでリリースされたのではないかという疑問が生じています。😬 Llama 4の不安定なデビューの詳細はこちら:https://t.co/iqiW793lJv #MetaAI
Daniel Han: (翻訳) Llama 4 分析 v1: 1. Maverick は MoE レイヤーと Dense を混合 - 奇数番目の MoE 2. Scout は QK に L2 Norm を使用 (QK Norm ではない) 3. 両方とも n_experts = 1 4. 公式リポジトリは torch.bmm を使用 (非効率) 5. Maverick レイヤー 1, 3, 45 MoE は「特殊」レ...
Kol Tregaskes: (翻訳) MetaのLlama 4モデルは、以下のArc Prizeの結果から少し批判を受けています。確かに素晴らしいですが、実際にはScoutとMaverickはGemmaとFlashレベルのモデルであり、推論モデルではありません。Llama 4 ReasoningとLlama 4 Behemothを待ちましょう - 本当に願っていますが https://t.co/5Q9ceKzX1y
MCP続報: Prismaがサーバー公開、VSCode拡張も登場
- AIエージェント連携プロトコルMCPに関する続報です。
- PrismaがMCPサーバーを公開し、AIコーディングツールからPrisma Postgresインスタンスを管理可能になりました。
- VSCode拡張機能として、インストール済みのMCPサーバーをリレー公開するツールも登場しています。
- 一方で、MCPサーバーのセキュリティリスクやプロトコルの曖昧さに関する議論も継続しています。
mizchi: なんかもう開発の余力があってドキュメンテーションやる気があるプレーヤーは当然のように mcp サーバー出してくるな
Iaiso: “ この "VSCode as MCP Server" 拡張機能では、インストールされている MCP サーバー(現在 Tool のみ)を更にリレーして公開します。” すごい https://t.co/r4hTdTCc3o
Iaiso: https://t.co/qEdEoT4NpA 多くのMCPサーバーはLLMからの入力を検証せずにコマンド実行していて、実行環境であるユーザーの端末がリスクを負っているがあまり認知されていないという攻撃者にとって都合のいい時期だなぁ
OpenAIアルトマン氏「今は起業の好機」、仲間探しを強調
- OpenAIのCEOサム・アルトマン氏が、現在はテクノロジー企業を創業するのに史上最高の時期の一つだと述べました。【続報】
- 同氏は、若い創業者にとって「同じように突き進んでいる仲間」を見つけることが非常に重要だと強調しています。
- また、元共同設立者のIlya Sutskever氏も、AGIが社会に天文学的な影響を与える可能性が高いと言及しました。
d: サム・アルトマン: 後になって本当に大切だと分かったのは、『同じように突き進んでいる仲間がいる』ということでした。今の若い人たちに一番伝えたいのは、そういう仲間のグループをできるだけ早く見つけることが大事だということです。 https://t.co/wl5qkN6OYq
d: 質問: 今が、テクノロジー企業を創業する上で史上最高のタイミングだと思いますか? サム・アルトマン: 少なくとも今までで最高の時期だと言いましょう。 https://t.co/04mIjXSyYB
d: OpenAI共同設立者イリヤ・サツケバー: AGI(汎用人工知能)が社会に完全に天文学的な影響を与える可能性は非常に高いと思います https://t.co/lI4aZK3d4T
a16z、200億ドル規模のAI特化ファンド組成を検討
- 大手ベンチャーキャピタルのAndreessen Horowitz (a16z) が、200億ドル(約3兆円)規模のAI特化ファンドの組成を検討していると報じられています。
- 実現すれば過去最大級のVCファンドとなり、主にグロースステージのAI企業への投資を目的としている模様です。
- 近年のAI企業の超大型調達に対応するための動きと考えられます。
Tetsuro Miyatake: a16zが$20BのAIファンドを立ち上げようとしているらしい。 グロースステージの投資になるが、最近のAI企業が超大型調達をしているので、このファンド規模も大きくしないといけないと感じているのかもしれない。 https://t.co/LyEnfT0q3m
久保田 雅也@Coalis: a16zが$20Bnのファンドレイズを目指す。過去最大の3兆円ファンド https://t.co/OjeRKZdSQw
Gemini 2.5 Flashプレビュー版、Google SDKに追加
- GoogleのPython SDKに「gemini-2.5-flash-preview-04-09」というモデル名が追加されたことが確認されました。
- これは、Gemini 2.5 Proよりも高速かつ軽量な「Flash」バージョンのプレビュー版である可能性が高いと見られています。
- thinking_configやthinking_budgetといった関連パラメータも追加されており、近いうちに利用可能になることが期待されます。
Tibor Blaho: (翻訳) gemini-2.5-flash-preview-04-09 + thinking_config/thinking_budget が Google Gen AI Python SDK に追加されました https://t.co/f8xTTmN3HR
ML_Bear: Gemini 2.5 FlashがGoogleのPython SDKに追加されたことが確認されたらしい。速くてそこそこ賢いモデルがすぐ来そうですね😇
ChatGPT Web版に音声入力機能が展開開始
- ChatGPTのWebインターフェースに、待望の音声入力機能が順次展開されていることが報告されています。
- これまで一部ユーザーに限定されていた機能が、一般ユーザーも利用可能になりつつあります。
- マイクアイコンをクリックして話しかけることで、音声がテキストに変換され入力欄に反映される仕組みで、日本語の認識精度も高いと評価されています。
ChatGPT研究所: 【速報】ChatGPTのWeb版に待望の音声入力機能が登場 以前から一部ユーザーに先行リリースされていましたが、一般ユーザーへの公開が始まったようです。 ・マイクアイコンから直接話すと、音声がテキストに変換されて入力欄に反映 ・日本語の音声認識精度もかなり高い印象 https://t.co/EkdIK04pbX
ベクトル検索の限界と課題、MCP/RAGでの最適解は?
- ベクトル検索技術に関する議論が深まっています。
- 実装方法に関する記事が公開される一方、その限界や課題も指摘されています。
- 特に、型番や新しい単語の検索には不向きである点や、単純な類似検索では品質が低い場合がある点が挙げられています。
- MCPサーバーやRAGシステムにおいて、必ずしもベクトル検索が最適解ではなく、既存の検索エンジンで十分な場合もあるとの意見も出ています。
mizchi: 書いた。100行で実装するベクトル検索 https://t.co/4hPiQq9bBk
Kazunori Sato: (定期)ベクトル検索はMCPやRAGとは完全に独立した技術。落とし穴もある(型番や新しい単語では検索できないし、単純な類似検索は検索品質低め)。Elasticsearch等の既存の検索エンジンやRDBで十分な検索品質が得られてるなら、それをMCPサーバやRAGに使うのも十分ありな選択肢。
mizchi: ベクトル検索の実装はできたが、ベクトル検索にどの embedding を使ってどの粒度で分割するとどのぐらいの距離が出るとかそのへんの肌感がまだない。ドキュメントください
AIスタートアップ活況: 元OpenAIメンバー新会社、Starday、Arena AI
- OpenAIの元Chief Research Officerが、元CTO Mira Murati氏の新会社「Thinking Machine Labs」にアドバイザーとして参加したことが報じられました。創業チームの半数が元OpenAIメンバーとのことです。
- 消費者需要を予測してフードブランドを開発するStardayが1100万ドルを調達しました。
- ハードウェア開発を支援するAIプラットフォームを提供するArena AIも3000万ドルを調達するなど、多様な分野でAIスタートアップの動きが見られます。
Tetsuro Miyatake: OpenAIの元Chief Research Officerが元CTOのMira Muratiの新会社「Thinking Machine Labs」のアドバイザーとしてジョインした。 Thinking Machine Labsの創業チームとして38人が記載されているが、そのうち半分が元OpenAIメンバー。 https://t.co/LarI6L4XKD
Tetsuro Miyatake: AIを活用してまだ満たされている消費者の需要に合わせたプロダクトの機会を予想してフードブランドを開発するStardayが$11M調達を発表した。 既に4つのブランドで14商品を販売している。 https://t.co/T6bnQjASwK
Tetsuro Miyatake: AIハードウェアエンジニアを提供するArena AIが$30M調達を発表した。 過去50年間ではソフトウェアがより書きやすくなったが、同じような現象がこれからハードウェア領域でも起きる。 https://t.co/rXD4G4WDLO https://t.co/NpWoryjctS
その他AI動向: OpenAI SDK日本語化、Amazon新音声モデル等
- OpenAI Agents SDK (Python) のドキュメントが有志により日本語化され、公開されました。音声エージェントのサンプルアプリもリリースされています。
- Amazonが新しいAI音声モデル「Nova Sonic」を発表しました。既にAlexa+に組み込まれており、多言語での単語誤り率の低減を実現したとしています。
- Kyutaiが開発した日本語LLM「Moshi」の非公式ファインチューニングコードが公開され、コミュニティでの活用が期待されます。
Kazuhiro Sera (瀬良): 🇯🇵 OpenAI の Agents SDK (Python) のドキュメントを全て日本語化しました!🎉 https://t.co/7nfpD5cXbO ちなみにこれは OpenAI のモデルを利用するスクリプトを書いて全て自動翻訳しています。どのように工夫しているか興味のある方は私の PR を見てみてください 😉 #OpenAIDevs
Tetsuro Miyatake: Amazonが新しいAI音声モデル「Nova Sonic」をローンチした。 既にNova SonicはAmazon Alexa+に組み込まれているとのこと。 英語、フランス語、イタリア語、ドイツ語、スペイン語の単語誤り率は4.2%らしい。 https://t.co/xMOMYJenOk
s-miyawaki | Algomatic: うおおお🔥