- Gemini 2.5が6時間の動画処理と200万トークンのコンテキスト処理を可能にする効率的なトークン化技術を実現
- 空間理解機能により推論バックボーンと組み合わせた高度な視覚検出を提供
- 動画からコード生成、文書のレイアウト保持処理など企業向けワークフローの変革を実現
- プロアクティブアシスタンス機能により従来の対話型AIから監視型AIへのパラダイムシフトを提案
Googleが750億ドルのAIインフラ投資でGemini 2.5技術革新を発表
Googleは2025年7月3日に公開した技術系ポッドキャストにおいて、Geminiの先進的なマルチモーダル機能を詳細に発表した。GeminiマルチモーダルVision製品リーダーのAni Baddepudi(アニ・バデプディ)氏は「Geminiは最初からマルチモーダルモデルとして構築されており、これらのモデルは人間と同様に世界を見て認識できるようになることを目標としている」と説明した。今回の発表は、Googleが2025年に計画している750億ドル(約11兆2,500億円)のインフラ投資の一環として位置づけられ、人工汎用知能の実現に向けた重要なマイルストーンとなる。
Geminiの統合アーキテクチャは、テキスト、画像、動画、音声などすべてのモダリティをトークン表現に変換し、単一のモデルで統合処理を実現する。「我々は、これらすべての情報を一緒に学習した、根本からマルチモーダルとして訓練された単一のモデルを持っている」とBaddepudi氏は技術的基盤を説明した。この統合アプローチにより、従来は別々のモデルが必要だったOCR、検出、セグメンテーション機能がすべてGeminiに統合され、複雑な用途での相乗効果を生み出している。
Gemini 2.5の動画理解性能が最先端レベルに到達
Gemini 2.5では動画処理における堅牢性の大幅な改善を実現した。従来のGeminiモデルは1時間の動画を入力すると最初の5分から10分に焦点を当て、残りの動画については性能が低下していた問題を解決。効率的なトークン化技術により、各フレームの表現を従来の256トークンから64トークンに削減し、最大6時間の動画を200万トークンのコンテキストで処理できるようになった。
実用的な応用例として、動画からコード生成機能が大きな注目を集めている。YouTubeの料理動画をステップバイステップのレシピに変換したり、講義動画を講義ページや講義ノートに変換する用途で広く使用されている。「2.5の発表で素晴らしいことの一つは、動画からコードへの変換が非常にうまく機能することだ。これは2.5モデルのコード能力が大幅に向上したためだ」とBaddepudi氏は説明した。この機能により、動画コンテンツを直接ウェブサイトやアニメーションに変換することが可能になり、教育やソフトウェア開発分野で革新的な用途が広がっている。
空間理解技術により推論機能と視覚検出を統合
Geminiの空間理解機能は、従来のコンピュータービジョンを超えて統合された推論能力を提供する。「Geminiが検出を行えることの素晴らしい点は、推論バックボーンと世界知識を持っていることだ」とBaddepudi氏は説明した。具体的な例として、マイクロキッチンの冷蔵庫の画像を撮影し「どの飲み物が最もカロリーが少ないか」と質問したところ、システムは水のボトルの周りにバウンディングボックスを生成し、適切な判断を示した。
この技術は、ロボット工学や自動運転車などの身体性AI開発において重要な役割を果たす。「ロボットや自動運転車にGeminiのような推論機能を搭載したAIシステムが搭載されれば、多くの用途が開拓される」とBaddepudi氏は予測した。空間理解と推論の統合により、単純な物体検出から複雑な文脈分析まで、幅広い視覚タスクを単一のシステムで処理できるようになっている。
文書処理機能が企業ワークフローを変革
Geminiの文書理解機能は、企業の基本的な情報処理課題に対する革新的な解決策を提供する。「大量の情報が文書に保存されているため、文書はGeminiが分析し推論すべき強力な情報媒体であることは明らかだ」とBaddepudi氏は述べた。従来の文書ワークフローでは、AI処理前に光学文字認識(OCR)を別途実行する必要があったが、Geminiのアプローチでは、フォーマットと視覚要素を保持しながら直接文書理解を可能にする。
実際の企業向け活用例として、Baddepudi氏は「過去10四半期の企業決算報告書を100万トークンのコンテキストで入力し、数万ページ、200万トークンの情報を使って企業分析を実行させた」と説明した。この機能により、レイアウト保持転写と呼ばれる技術で、文書の転写時にレイアウト、スタイル、構造を保持することが可能になり、従来のOCRベースの処理では失われていた重要な視覚情報を活用した分析が実現している。
プロアクティブアシスタンス機能が未来の対話パラダイムを提示
Googleは、現在のターンベースの対話からプロアクティブアシスタンスへの移行を目指している。「現在、ほとんどのAI製品はターンベースで、モデルやシステムに質問し、回答を得て、再び質問し、回答を得るというプロセスを繰り返している」とBaddepudi氏は現状を説明した。提案されたモデルは、自然な人間の支援パターンに似ており、「専門家の人間があなたの肩越しに見て、あなたが見ているものを見て、物事を手伝ってくれることを想像する」という概念だ。
実際のデモンストレーションとして、視覚的監視を通じた料理支援機能が紹介された。「以前は段階的なレシピに従って、自分がやっていることをレシピとパターンマッチングしなければならなかった。Geminiができる素晴らしいことは、あなたがやっていることを見ながら、動画の視覚的手がかりに基づいて積極的に行動を提案することだ」とBaddepudi氏は述べた。この機能の実装における主な課題はインターフェース開発であり、「コア問題はインターフェースの開発だ。我々はグラス型デバイスの世界に向かっており、Googleでもこれらの技術に取り組んでいる」と将来のハードウェア戦略を示唆した。
統合アーキテクチャと開発戦略により包括的AI機能を実現
従来のシステムでは異なるビジョンタスクに対して別々のモデルが必要だったが、Geminiでは「Vision機能用の別個のモデル、別個のOCRモデル、別個の検出・セグメンテーションモデルなどがすべて統合されている」とBaddepudi氏は説明した。この統合により、複雑なアプリケーションでの相乗効果が生まれ、特にGeminiをピアプログラマーとして使用する用途では、「IDEの動画をGeminiにストリーミングし、コードベースについて質問し、回答を得る」機能が実現されている。これには強力なコーディング機能、コアVision、時間的視点での動画理解能力の統合が必要だ。
Googleのマルチモーダル開発戦略は3つのカテゴリーに分類される。第一は「今日ユーザーと顧客にとって重要な用途」で、APIを使用する開発者やGoogle製品での実用化を重視している。第二は人工汎用知能の基盤となる長期的理想機能で、「今日人々が求めていないが、強力なAIシステムやAGI構築に非常に重要」な機能の開発だ。第三は創発的機能で、「画像からコードや動画からコードの変換能力は特に計画していなかったが、2.5では非常に強力な機能となった」とBaddepudi氏は述べ、一般的なモデル改善から予期しない能力が生まれることを示している。
引用元: PPC Land
Google reveals Gemini multimodal advances in July 2025 podcast