- GoogleがVertex AIクラウドプラットフォームでメディア生成AI群を大幅アップデート
- テキストから音楽を生成する「Lyria」が一部顧客向けにプレビュー提供開始
- 動画編集AI「Veo 2」や音声複製機能なども強化
Googleクラウド、生成AIモデル群を大幅強化
水曜日、GoogleはVertex AIクラウドプラットフォームを通じて利用可能な自社開発のメディア生成AIモデル群に複数のアップデートを展開した。テキストから音楽を生成するGoogleのモデル「Lyria」が選定顧客向けにプレビュー提供を開始し、同社の動画作成モデル「Veo 2」には新たな編集機能やビジュアルエフェクトのカスタマイズオプションが追加された。また、Googleの音声理解モデル「Chirp 3」を活用した音声複製機能が「許可リスト」に登録されたユーザー向けに提供開始された。さらに、画像生成モデル「Imagen 3」も同社が「大幅な」性能向上と表現する改良が施されている。
Cloud Next会議に合わせた企業向けAI市場での攻勢
Cloud Next会議に合わせたこれらのアップデートは、Google生成AI企業市場を押さえるための最新の動きだ。同社は独自の生成AIモデル群を持つ類似クラウドAIプラットフォーム「Bedrock」を提供するAmazonと最も直接的に競合している。
Lyria:ロイヤリティフリー音楽ライブラリの代替として
Googleは、Lyriaをロイヤリティフリー音楽ライブラリの代替として売り込んでいる。同社によると、このモデルを使用することで、顧客はジャジーなピアノソロからローファイトラックまで、さまざまなスタイルやジャンルの楽曲を作成できるという。
Chirp 3:多言語対応の音声合成技術
一方、Chirp 3は約35の言語で音声を合成することができる。今年初めにプレビュー公開されたChirp 3は、わずか10秒の音声で声を複製できるとされる「Instant Custom Voice」を駆動している。この機能は現在一般提供が開始された。このモデルはまた、「Transcription with Diarization」と呼ばれるプレビュー公開中の新ツールの基盤となっており、複数参加者のいる録音から話者を分離して識別する機能を提供する。
Googleによると、悪用を防止するため、Instant Custom Voiceは「適切な音声使用許可」を確認する「精査」プロセスの対象となっている。
Veo 2:強化された動画編集機能
Veo 2に関しては、既存の動画から背景画像、ロゴ、オブジェクトを削除したり、動画フレームを拡張したりする機能(例:横向き動画を縦向きに変換)が追加された。また、AI生成シーンのカメラアングルやペースを調整して、タイムラプスやドローンスタイルのクリップなどを作成できるようになり、指定された開始フレームと終了フレームの間を補間することも可能になった。これらのVeo機能は現在プレビュー段階で提供されている。
Imagen 3:画像修復能力の向上
前述のImagen 3のアップグレードについて、Googleはオブジェクトの削除や画像の欠落・損傷部分の再構築能力が向上したと述べている。
コンテンツの安全性とウォーターマーク技術
Imagen、Veo、Lyria(Chirpは除く)によって生成されるすべてのメディアには、GoogleのSynthID技術を使用してウォーターマークが付けられる。同社は、すべての生成AIモデルには有害なコンテンツの作成を防ぐための「組み込みの安全装置」があるとしている。
トレーニングデータと著作権問題
Googleは従来、モデルのトレーニングに使用する特定のデータを明示していないが、今回もその方針は変わっていない。トレーニングデータは知的財産権関連の理由から論争の的となることが多い。一部の企業は権利所有者から事前に許可を得ることなく著作権で保護された作品でモデルをトレーニングしている。これらの企業は米国のフェアユース原則がこの慣行を保護すると主張しているが、一部のクリエイターは当然ながら異論を唱えており、多くがベンダーと裁判で争っている。
Googleは以前、モデルトレーニングのオプトアウトメカニズムを提供しており、Google CloudおよびVertex AI顧客をAI関連の著作権紛争から保護する補償ポリシーも設けていると述べている。
引用元:TechCrunch
Google’s enterprise cloud gets a music-generating AI model