2025年04月05日 夜のAIニュースまとめ
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
著作権問題から3D制作革新まで:AIの可能性と課題の最前線
OpenAIモデルによる著作権コンテンツの「記憶」問題が新たな議論を呼んでいます。同時に、Qwen 2.5 VLベースの高性能OCRモデルがオープンソースで公開され、商用利用も可能になりました。
AIツール「Cline」とGemini 2.5 Proの組み合わせによるBlender操作が驚きの評価を集め、3Dコンテンツ制作の革新が進行中です。一方、MCPフレームワークの脆弱性発見やWaymo自動運転タクシーの遅延問題など、技術的課題も明らかになっています。
それでは各トピックの詳細を見ていきましょう。
目次
- OpenAIモデルによる著作権コンテンツ「記憶」の可能性、新たな研究で指摘 - 著作権問題に新たな火種
- Qwen 2.5 VLベースの高性能OCRモデルがオープンソースで公開
- AIツール「Cline」でBlender操作が可能に、特にGemini 2.5 Proが高評価
- MCPフレームワークに重大な脆弱性「Tool Poisoning Attacks」が発見
- コードベースをグラフDBに保存して効率的リファクタリングを実現
- MS Copilot VisionがWindows/モバイルに機能拡張
- Gemini 2.5 Proの価格詳細発表、出力単価上昇も性能対価格比で市場をリードか【続報】
- Gemini 2.5 Pro、音声文字起こし精度で商用サービス超えと高評価【続報】
- MCPの応用事例:社内デザインシステム連携でUI実装を高速化
- Waymo自動運転タクシーが時間通りに到着しない問題が報告
- GitHub、AIエージェント連携を強化するMCPサーバーをパブリックプレビューで公開
OpenAIモデルによる著作権コンテンツ「記憶」の可能性、新たな研究で指摘 - 著作権問題に新たな火種
- TechCrunchが報じた新しい研究により、OpenAIのモデルが学習データに含まれる著作権保護されたコンテンツを「記憶」している可能性が示唆されました。
- これは、以前指摘されたO'Reilly書籍データの無断使用疑惑に続き、AIモデルの学習データと著作権に関する問題をさらに複雑化させるものです。
- 研究結果は、AI開発における知的財産権の扱いや、今後の法的枠組みの整備に向けた議論を加速させる可能性があります。
TechCrunch: (翻訳) OpenAIのモデルが著作権で保護されたコンテンツを「記憶」していることを新しい研究が示唆
Qwen 2.5 VLベースの高性能OCRモデルがオープンソースで公開
- Apache 2.0ライセンスのもと、Qwen 2.5 VLをベースにした最先端OCR(光学式文字認識)モデルが公開されました
- このモデルはオープンソースで提供されており、商用利用も可能なライセンス体系となっています
- 画像内のテキスト認識技術の進歩により、文書のデジタル化や画像からのテキスト抽出がさらに高精度になることが期待されています
Vaibhav (VB) Srivastav: (翻訳) 新登場:最先端OCRモデル - Qwen 2.5 VLベースのApache 2.0ライセンス 🔥
AIツール「Cline」でBlender操作が可能に、特にGemini 2.5 Proが高評価
- AIエージェント「Cline」を使用して3Dソフト「Blender」を操作し、AIによる3Dモデリングが可能になりました
- 特にGoogle Gemini 2.5 Proがこの操作を上手く行えると高評価を得ており、「これはやばい」「AIで3Dモデルが作れるようになるなんて」との反応が見られています
- AIによる3Dコンテンツ制作の新たな可能性を示す事例として注目を集めています
Kazunori Sato: AIのClineで3Dソフトの「Blender」を操って、3Dモデリングが可能に。特にGemini 2.5 Proが上手→「これはやばい」「AIで3Dモデルが作れるようになるなんて」 https://t.co/S0RP2b435m
MCPフレームワークに重大な脆弱性「Tool Poisoning Attacks」が発見
- Invariant社が、AIエージェントシステム用のModel Context Protocol (MCP)における重大な脆弱性「Tool Poisoning Attacks」を発見しました
- この脆弱性により、不正なコードがAIシステムに挿入され、情報漏洩などのリスクが生じる可能性があります
- 専門家は「その辺に落ちているMCPをコードを読まずに使わないように」と警告しており、セキュリティ対策の重要性が改めて強調されています
西見 公宏 | Generative Agents: Claudeみたいな「優秀」な子なら、ツールの説明のままに機密情報を漏えいさせるリスクは比較的低いとは思うけど、素直に指示追従するモデル(あるいはそうFTしているもの)については一定のリスクがあると思う。 いずれにせよ、その辺に落ちてるMCPをコードを読まずに使わないようにした方が良い。 (引用ツイート: 【Model Context Protocol (MCP)に重大な脆弱性「Tool Poi...
小川雄太郎: 「MCPフレームワーク・トップ 7」 AIエージェントのMCPクライアント側の構築について、 MCPの丁寧な解説、各フレームワークでの具体的実装例と良い記事でした 1. OpenAI Agents SDK 2. Praison AI 3. LangChain 4. Chainlit AI 5. Agno 6. Upsonic 7. Mastra https://t.co/U4rzjnQW...
コードベースをグラフDBに保存して効率的リファクタリングを実現
- プログラミングのリファクタリング効率を高める独創的な手法が注目を集めています。この方法ではコードベース全体の抽象構文木(AST)をグラフデータベース Neo4j に保存します
- リファクタリングしたい領域を指定すると、システムが関連コードを抽出してLLMのコンテキストウィンドウに投入。これにより的確なリファクタリング提案が可能になります
- Neo4jのような木構造データベースの典型的なユースケースとして評価されており、大規模コードベースの効率的なメンテナンスに革新をもたらすと期待されています
Kenn Ejima: コードベースのリファクタリング機能開発のため、全ソースコードのASTをグラフデータベースのNeo4jに保存しておきリファクタリングして欲しい領域を指定すると枝刈りしてコンテキストウィンドウに投入してくれると。 ようやくNeo4jのツリー構造が役立つ完璧なユースケースが誕生した感じか。 (引用ツイート: 🤯 this genius stores his entire codebase syntax...
ericsongs: (翻訳) 🤯 この天才は自分のコードベース全体の構文をグラフデータベースに保存し、LLMにコンテキストを提供するためにクエリを実行しています
MS Copilot VisionがWindows/モバイルに機能拡張
- Microsoftが昨年Edgeブラウザに導入したAI画像認識機能「Copilot Vision」をWindows本体およびモバイルデバイスにも展開することを発表しました
- このアップデートでは、ユーザーの情報を記憶するメモリー機能やポッドキャスト生成、アクションを実行可能なエージェント的機能も追加されています
- OSレベルでのAI統合が進み、画面内容の認識からタスク実行までをシームレスに行える環境が整いつつあります
Tetsuro Miyatake: Microsoftが去年ブラウザーのEdgeに導入した画面などをAI画像認識で把握できる機能「Copilot Vision」をWindows及びモバイル展開することを発表した。 それ以外にもユーザーの情報を覚えるメモリー、ポッドキャスト生成、アクションを行えるエージェント的な機能もアップデートされた。 https://t.co/TvW8vnz47R
Gemini 2.5 Proの価格詳細発表、出力単価上昇も性能対価格比で市場をリードか【続報】
- Googleが発表したGemini 2.5 Proの価格詳細について続報です
- コンテキスト長に応じた段階的な価格設定が採用されましたが、特に出力トークン単価が従来モデルより高く設定されている点が注目されます
- 思考プロセスを含む推論タスクでは出力トークン数が大幅に増加する可能性があるため、利用者はコスト見積もりに注意が必要です
- 一方で、その高い性能から、価格設定を含めてもAIモデル市場における性能対価格の最適バランス(パレートフロント)を支配する存在になると評価されています
Kenn Ejima: Gemini 2.5 Pro価格発表でパレートフロントをGoogleが制圧。これはとてもいいムーブだ (引用ツイート: With gemini 2.5 pro pricing and results, Google has fixed the biggest unknown/weakest link in their lineup and we can now confirm that @Go...
webbigdata: Gemini 2.5 Proの価格が発表 Gemini 1.5 Proに似たコンテキスト長によって価格が変わる仕様 グラフにしてみると出力トークンを値上げする傾向が見えます 最近の思考過程を出力する推論モデルは出力トークン数が激増しているので1タスクにかかる費用見積は慎重にした方が良いです https://t.co/x4iotj6CWl
Gemini 2.5 Pro、音声文字起こし精度で商用サービス超えと高評価【続報】
- Gemini 2.5 Proを用いたミーティング音源の文字起こしが「ほぼ完璧」と高評価を得ており、既存の商用サービスを上回る精度が報告されている
- 特に日本語以外の言語を含む音声データの文字起こしと翻訳の精度向上が著しく、多言語対応能力の高さが示された
- 企業内で独自の文字起こしフローを構築することで、より高品質なテキストデータ生成と、それに続く分析プロセスの改善が期待される
西見 公宏 | Generative Agents: 少なくとも海外プロダクトととの差は歴然なので、自前で音源データの管理ができるなら、自前でLLMによる文字起こしのフローを作った方が良いと私も思います。 書き起こしテキストの精度が悪いと、後続のフローにもかなり影響を与えるので。 (引用ツイート: Google AI Studio (Gemini 2.5 Pro) でミーティングの音源データの文字起こしをした。ほぼ完璧。使っている某商用サービスと比...
MCPの応用事例:社内デザインシステム連携でUI実装を高速化
- 以前からお伝えしているModel Context Protocol (MCP) の具体的な応用事例が報告されました。
- ある企業では、社内デザインシステムをMCPサーバー化することで、AIへの指示だけでデザインシステムに準拠したUIコードを生成できるようになり、実装が大幅に効率化されたとのことです。
- MCPがコーディングの標準化と効率化を両立する実践的なアプローチとして活用され始めています。
azukiazusa: 僕のブログを参考にしてくださっているようですが、流石にコード例のazukiazusa
は置き換えたほうがよかったりしませんか(?) https://t.co/Bbag9YDYix
酒井@製造業×生成AI高速PoCシステム開発: 凄くよかった。この例のようにMCPで何から何まで接続されて、より簡単に高いアウトプットのものが量産されて生産性が上がっていくんだろうなという未来が見える (引用ツイート: 社内デザインシステムを MCPサーバー化したらUI実装爆速になった記事を書きました https://t.co/ItBKpLPtMY)
Waymo自動運転タクシーが時間通りに到着しない問題が報告
- Waymoの自動運転タクシーサービスが予定通りの時間に到着せず、Googleマップの予測よりも15分も遅れるルートを選択する問題が報告されています
- 「時間が重要な移動には決してWaymoを使わないで」と警告するユーザーの声も上がっており、自動運転サービスの実用性に疑問が投げかけられています
- AIによる経路選択が必ずしも最適でないケースが浮き彫りになり、自動運転技術の実用化における課題の一つとして注目されています
Tanishq Mathew Abraham, Ph.D.: (翻訳) 時間が重要な移動には決してWAYMOを使わないでください。会議に向かうためにWaymoに乗っていますが、早めに出発したにもかかわらず、Googleマップでは時間通りに到着するはずが、Waymoは15分遅れると言っています!明らかに遠回りのルートを取っています。本当に愚かです...
GitHub、AIエージェント連携を強化するMCPサーバーをパブリックプレビューで公開
- 以前からお伝えしているModel Context Protocol (MCP)に関連する続報です。
- GitHubが提供するMCPサーバーがパブリックプレビューとして一般に公開されました。
- これにより、AIエージェントからGitHubの機能(リポジトリ操作や開発ワークフロー自動化など)へのアクセスが容易になります。
- VSCodeのMCP設定では、クレデンシャルを安全に管理する機能も提供されます。
からあげ: あれ?GitHubのMCPサーバ、前から使ってたような気が…今までのはpublic preview前ということ?? > github-mcp-server is now available in public preview https://t.co/ZVIogvbo8Y
Iaiso: VSCodeのMCP設定、クレデンシャルをハードコーディングせずに、実行時に要求して保存する機能があるのがいい https://t.co/w7A3ykP32s