Gemini 2.5 Proがベンチマーク席巻、NVIDIAの次世代インフラに注目
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
GoogleのGemini 2.5 Proが各種ベンチマークで首位を獲得し、Mensa IQテストで130を記録するなど驚異的な性能を示しています。一方で独特のコーディングの癖も話題になっています。
NVIDIAのGB200 NVL72は年末までの遅延が噂される中、CoreWeaveでの運用状況や安定性に関する議論が続いています。
AI時代のメモリ階層に関する議論も活発化し、DeepSeekなどの低コストモデル活用が広がる一方で、その限界や日本の開発体制についても議論されています。
それでは、各トピックの詳細に目を向けていきましょう。
目次
- Gemini 2.5 Pro、各種ベンチマーク首位獲得やMensa IQ 130達成など高評価続く、特有のコーディングの癖も話題に【続報】
- NVIDIA GB200 NVL72の動向:遅延の噂、安定性への考察、CoreWeaveでの運用状況
- AI時代のメモリ階層議論が活発化:HBM市場拡大予測とNear Memoryの進化
- 低コストAIモデルDeepSeek活用広がる一方、限界や日本の開発体制への議論も
- AI活用最前線:自動運転(Waymo新用途)、求人(メルカリ)、開発プロセス(Algomatic)、AX(PharmaX)など多様化
- AI開発者の視点:求められるスキル変化、エージェント開発の課題、LLMフロー設計、特徴量管理(MLOps)
- Midjourney v7リリース延期、ChatGPT Deep Research回数表示、AI事業者ガイドライン更新など AI関連動向
Gemini 2.5 Pro、各種ベンチマーク首位獲得やMensa IQ 130達成など高評価続く、特有のコーディングの癖も話題に【続報】
- 先日のニュースレターでお伝えしたコーディング能力に加え、GoogleのGemini 2.5 ProがMathArenaやDevin内部評価で1位を獲得、Mensa IQテストで130を記録するなど、各種ベンチマークで高い性能を示していることが明らかになりました。
- 開発者からは、引き続きClaude 3.7 Sonnetに匹敵、あるいはそれ以上との評価が寄せられています。
- 一方で、import文を省略するなど、人間らしい(?)コーディングの癖があるといった具体的な挙動に関するコメントも出ており、その性能と特徴の両面から注目が集まっています。
Philipp Schmid: (翻訳) Gemini 2.5のリーダーボード更新: - MathArena 1位 - Mensa NorwayでIQ 130を記録 - Devin内部評価で1位 https://t.co/FBdhpoRnot
逆瀬川: gemini-2.5-pro、import文とかを怠ける癖があるの人間の実装っぽくて好き (軽いスクリプトをパパっと書くときimport文抜きで実装していってあとで自動修正で補いがち)
NVIDIA GB200 NVL72の動向:遅延の噂、安定性への考察、CoreWeaveでの運用状況
- NVIDIAの次世代AIインフラであるGB200 NVL72について、年末までの遅延の噂が一部で囁かれています。サーバーラックシステム導入の複雑さが指摘されています。
- 一方で、大規模システムにおける個々のコンポーネントの故障は確率的に避けられないため、不安定性の問題は誇張されている可能性もあるとの考察も出ています。
- 独立系クラウドプロバイダーCoreWeaveではGB200 NVL72が既に運用されているとの情報もあり、ハイパースケーラーとは異なる視点での評価が注目されます。
パウロ: GB300は年末まで遅延か サーバーラックシステムの導入ははるかに複雑 https://t.co/gUipA9ODP6
パウロ: CoreWeaveはGB200 NVL72をきちんと運用出来ているみたいなので、規模にもよりますが、ハイパースケーラーのバイアスが入っていないか確認したいですね InfiniBandじゃなく彼らの既存のイーサネットネットワークに接続したい思惑がありますから
パウロ: GB200 NVL72の不安定問題も誇張されている気がしますね そもそも72基あれば、8基よりも故障に遭遇する確率ははるかに高くなるし、50万クラスタ構築するならば数分に1回はどこかのGPU+HBMはおかしいでしょう GB200 NVL72の成熟は時間をかけて徐々に、HGX B200も並列で、という感じですね
AI時代のメモリ階層議論が活発化:HBM市場拡大予測とNear Memoryの進化
- AI、特に大規模言語モデルの学習・推論におけるメモリの重要性が増す中、メモリ階層構造に関する議論が活発になっています。
- HBM(High Bandwidth Memory)市場は今後急拡大すると予測されており、SK Hynixなどのメモリメーカーの動向が注目されています。
- HBMだけでなく、その次の階層となるNear Memory(LPDDR5X/6など)の役割や、NAND Flashの適用可能性についても技術的な考察が行われています。
パウロ: HBMは2024年の15倍になります 以下、引用 市場調査会社IDTechExのレポート「Hardware for HPC, Data Centers, and AI 2025-2035: Technologies, Markets, https://t.co/PoBUFnTade
パウロ: ここまで読んで頂き、本当に嬉しいです マニアックな内容になりますが、よろしくお願い致します🙇 (引用ツイート: 3回目のnoteを書きました。 今回はSK Hynixになります。 AIメモリメーカーとして、飛躍の時。 その成長性についてnoteにしました。 是非読んでみてください。 https://t.co/NNMhvuIoDx)
パウロ: NAND flashをNear Memoryに置くという夢は捨てた方が良いと思う 帯域と耐久性で論外
パウロ: AI時代のメモリの階層構造良いですね 正しいと思います 大規模言語モデルだとKey, Value, Query, Biasを大量に保存しないといけないから🟩のNear Memoryが肥大化する HBMが第1陣であり、第2陣はHBM4Eのベースダイがかかえる2層目のNear MemoryになるLPDDR5X/6 https://t.co/GoAtiYXkS2 https://t.co/1NJcFvZ...
低コストAIモデルDeepSeek活用広がる一方、限界や日本の開発体制への議論も
- オープンソースなどで提供される低コストなAIモデル、特にDeepSeekを活用し、従来OpenAIなどに支払っていたコストを大幅に削減する事例が報告されています。
- これによりAI利用の裾野が広がる可能性が期待される一方、巨大モデルとの性能差や計算資源の制約といった限界も指摘されています。
- また、こうしたモデルが中国から登場する背景を踏まえ、日本のAI開発体制について改めて議論する声も上がっています。
Tetsuro Miyatake: Palo Alto Networkなど複数の大手企業がDeepSeekモデルを活用することによって今までOpenAIに支払ってたコストの5%ぐらいでプロダクト運用できるようになってる。 低コストモデルが出てくることによってAI利用の需要が高まり、より多くの金額をAIに使う可能性はある。 https://t.co/abzZMLrYdy https://t.co/BHD40kbP9D
パウロ: DeepSeekは巨大モデルと計算資源の暴力についてこれないだろうなぁ シンプルイズベスト
Odashi: テンプレすぎるアレで逆に様式美を感じる (引用ツイート: DeepSeek、日本でなぜ生まれない 日中のAI識者が語る https://t.co/yt0L1xIQC1)
AI活用最前線:自動運転(Waymo新用途)、求人(メルカリ)、開発プロセス(Algomatic)、AX(PharmaX)など多様化
- AI技術の応用範囲が拡大し、様々な分野でユニークな活用事例が登場しています。
- 自動運転サービスWaymoが、本来想定されていなかった子供の送迎に使われ始めているという報告は、新たな市場の可能性を示唆しています。
- メルカリの「メルカリ ハロ」では求人情報の自動生成や仕事のマッチングに、Algomaticでは開発プロセスや営業活動の効率化にAIが活用されています。PharmaXはAX(AI Transformation)事業を開始しました。
Tetsuro Miyatake: Waymoがサンフランシスコで伸びている一部の理由は親が子供を学校やクラブ活動の送り向かいで使っている。 ある学校では8割以上の親がWaymoを使っているとのこと(その前は1割ぐらいがUber・Lyftを利用していた)。 本当は18歳未満の人は利用できないが、こうやって新しい市場が生まれてくる。 (引用ツイート: SF on Saturday morning: a large % of Way...
Masato Naka: 最高のチームです! (引用ツイート: \メルカン新着記事🆙/ 『メルカリ ハロ』が実現する新しい働き方のスタンダード🚀 https://t.co/pMlz9klJZJ メルカリ ハロはAI/LLM技術を駆使し、自動生成求人や個人に最適化されたお仕事の提案を実現。「だれでもすぐに、かんたんに」働ける体験を提供しています🌟 https://t.co/0dg1ja6NBJ)
Algomatic池田|AI×営業: Algomaticの開発組織が、Vercel v0やCursorなどを使ってAI前提の開発プロセスを模索している様子が分かります! https://t.co/T3vv3ELhmM (引用ツイート: うちのチームで、v0のプロトタイプを最大限に活かして運用コードに載せたときの話です!チームのGoさんが書いてくれました Vercel v0からReact+Hono環境への移行戦略──Cursor活用で...
龍一郎 (f.k.a Asei Sugiyama): この分野の経験値が抜きん出て高い組織が爆誕してるじゃないですか PharmaXはAX事業を始めます|PharmaX Blog @Pharma_x_Inc #note https://t.co/kDAGRgIYPW
Yuya Unno: 毎日新聞さんに取材して頂きました。現場課題を技術で解決していきたい DXはもう古い? 押し寄せる「AIX」 日本の新たな“敗戦”危機 | 毎日新聞 https://t.co/Y3KODL88xw
AI開発者の視点:求められるスキル変化、エージェント開発の課題、LLMフロー設計、特徴量管理(MLOps)
- AI技術の進化に伴い、開発者に求められるスキルセットや開発手法も変化しています。
- Replit CEOは、コーディング能力よりも問題解決能力やコミュニケーション能力の重要性が増すと指摘しています。
- AIエージェント開発のデバッグの難しさや、LLMを用いた開発フローの設計、言語を超えた特徴量管理(MLOps)など、現場の具体的な課題や取り組みが共有されています。
Tetsuro Miyatake: 1年前には少しコードの書き方を覚えた方が良いとアドバイスを出していたが、多くのコードがAIが書くこと未来が来ることを考えるとコードを書くよりも考え方、問題を分解方法、コミュニケーション方法を学ぶ方が大事になるとReplit CEOのAmjad Masadが語る。 https://t.co/1rkbMchKea
かまろ/Camaro: AHC Agent、何もわからない問題の何もわからない解法の何もわからないエラーのデバッグにひたらすら付き合うという苦行と化している…
龍一郎 (f.k.a Asei Sugiyama): これ何度も読んでる YOJOのLLMフローエンジニアリング・アーキテクチャを解説します|Akihiro Ueno https://t.co/S9PkCN6OAO #zenn
龍一郎 (f.k.a Asei Sugiyama): 特徴量を言語を越えて一貫して管理する, 『特徴量ドリブン』な MLOps の実現への試み|Taniii https://t.co/U5MPNSwkx2 #zenn
Midjourney v7リリース延期、ChatGPT Deep Research回数表示、AI事業者ガイドライン更新など AI関連動向
- 先日お伝えした画像生成AI Midjourney v7について、当初の予定よりリリースが遅れる見込みです。
- ChatGPTの「Deep Research」機能では、残りの利用可能回数が表示されるようになり、ユーザーからは調査を深めるためのTipsも共有されています。
- 経済産業省などが公開する「AI事業者ガイドライン」が更新され、マルチモーダル対応などが追記されました。
カレーちゃん: ChatGPTのDeep Research、残りの回数が表示されるようになっていた。 https://t.co/jZFUg2ljii
Miwa - azooKeyの開発者: 素朴なやり方だけどDeep Researchに「100ページ書け」というと調査が深くなる(気がする)
Kol Tregaskes: (翻訳) Midjourney v7は今日(月曜日)ではなく、今週リリースされます。Omnireferenceは遅れる可能性があります。 (引用ツイート: @nickfloats 明日ではなく今週です。週末や金曜の夜にぶつかるリスクを避けるため、余裕を持たせるために早めを目指しています)
龍一郎 (f.k.a Asei Sugiyama): AI 事業者ガイドラインがアップデートされていてとてもえらい、主な変更は「マルチモーダルへの対応」「バイアスの明確化」「違法なコンテンツを学習しないように留意するよう明記」かな AI事業者ガイドライン(METI/経済産業省) https://t.co/vc9SZbtp22