DeepMind CEO、GoogleはGeminiとVeo AIモデルを最終的に統合する計画

Google DeepMindのCEOデミス・ハサビス氏がGeminiとVeo動画生成モデルの統合計画を明かす
統合により、Geminiの物理的世界の理解力向上を目指すという
AI業界は複数のメディア形式を理解・生成できる「全方位」モデルへと徐々に移行中
Veoのトレーニングデータは主にGoogleが所有するYouTubeから取得していることを示唆

DeepMind CEOがGoogleのAIモデル統合計画を発表

LinkedInの共同創設者リード・ホフマン(Reid Hoffman)氏が共同司会を務めるポッドキャスト「Possible」に最近出演したGoogle DeepMindのCEOデミス・ハサビス(Demis Hassabis)氏は、同検索大手が最終的にGemini AIモデルとVeo動画生成モデルを統合し、前者の物理的世界の理解力を向上させる計画だと語った。

「我々は常にGeminiというファウンデーションモデルを最初からマルチモーダルになるよう構築してきた」とハサビス氏は述べた。「そうした理由は、ユニバーサルデジタルアシスタント、つまり実際の世界であなたを助けるアシスタントというアイデアに対するビジョンがあるからだ」

AI業界が「全方位」モデルへと移行中

AI業界は、多くの形式のメディアを理解・合成できる「全方位」モデルへと徐々に移行している。Googleの最新のGeminiモデルはテキストや画像だけでなく音声も生成でき、一方でOpenAIのChatGPTのデフォルトモデルは現在、スタジオジブリ風のアートを含む画像を作成できる。Amazonも今年後半に「any-to-any（何でも対応）」モデルを発表する計画を明らかにしている。

これらの全方位モデルには、画像、動画、音声、テキストなど大量のトレーニングデータが必要だ。ハサビス氏は、Veoの動画データの大部分がGoogleが所有するYouTubeから来ていることを示唆した。

「基本的に、YouTubeの動画—多くのYouTube動画—を見ることで、[Veo 2]は世界の物理法則を理解できるようになる」とハサビス氏は述べた。

Googleは以前TechCrunchに対し、同社のモデルはYouTube制作者との契約に従って「一部の」YouTubeコンテンツでトレーニングされている「可能性がある」と述べている。報道によると、同社は部分的にAIモデルのトレーニング用データをより多く活用するため、昨年利用規約を拡大したという。

引用元：TechCrunch
DeepMind CEO Demis Hassabis says Google will eventually combine its Gemini and Veo AI models