Google Gemini、AI画像モデルを大幅アップグレード、ChatGPT対抗で精密編集機能を強化

Google

  • Google、Gemini 2.5 Flash ImageでAI画像編集機能を大幅強化、全ユーザーに提供開始
  • 「nano-banana」の偽名でLMArenaに登場、ソーシャルメディアで高評価獲得
  • 顔や動物の一貫性を保持しながら自然言語での精密編集を実現
  • ChatGPTの週間7億人ユーザーに対し、Geminiは月間4億5,000万人でユーザー獲得競争激化

Gemini 2.5 Flash Image、精密編集でライバル超越

Google社は火曜日、Geminiチャットボットを新しいAI画像モデルでアップグレードし、写真編集においてユーザーによりきめ細かい制御を提供すると発表した。これはOpenAIの人気画像ツールに追いつき、ChatGPTからユーザーを引き付けることを狙った措置だ。

「Gemini 2.5 Flash Image」と呼ばれるこのアップデートは、Geminiアプリの全ユーザーに加え、Gemini API、Google AI Studio、Vertex AIプラットフォームを通じて開発者にも提供される。

Geminiの新AI画像モデルは、ユーザーからの自然言語リクエストに基づいて画像により精密な編集を行うよう設計されており、顔、動物、その他の詳細の一貫性を保持する。これは大部分の競合ツールが苦手とする分野だ。例えば、ChatGPTやxAIのGrokに写真の誰かのシャツの色を変更するよう頼むと、顔が歪んだり背景が変わったりする結果になる可能性がある。

「nano-banana」として話題、LMArenaで高評価

Googleの新ツールはすでに注目を集めている。最近数週間、ソーシャルメディアユーザーはクラウドソース評価プラットフォームLMArenaで印象的なAI画像エディターに熱狂した。このモデルは「nano-banana」という偽名でユーザーに匿名で表示されていた。

Googleは(バナナ関連のヒントからすでに明らかだったが)このモデルの開発元であると述べており、これは実際には同社の主力Gemini 2.5 Flash AIモデル内のネイティブ画像機能だという。同社によると、この画像モデルはLMArenaや他のベンチマークで最先端の性能を示している。

視覚品質と指示従属性の向上を重視

Google DeepMindのビジュアル生成モデル製品責任者Nicole Brichtova(ニコル・ブリッヒトバ)氏はTechCrunchとのインタビューで「我々は視覚品質と、指示に従うモデルの能力を真に押し進めている」と述べた。

「このアップデートは編集をより seamless に行うという点で大幅に改善されており、モデルの出力は何に使用したいかに関係なく使用可能だ」とBrichtova氏は語った。

AI画像モデル競争激化、各社が技術革新を加速

AI画像モデルは大手テック企業にとって重要な戦場となっている。OpenAIが3月にGPT-4oのネイティブ画像生成機能を発表した際、AI生成のスタジオジブリミームの狂乱により、同社CEO Sam Altman(サム・アルトマン)氏によると同社のGPUが「溶ける」ほどChatGPTの使用量が急上昇した。

OpenAIとGoogleに追いつくため、Meta社は先週、スタートアップMidjourneyからAI画像モデルをライセンス供与すると発表した。一方、a16z出資のドイツのユニコーン企業Black Forest Labsは、FLUX AI画像モデルでベンチマークを支配し続けている。

ユーザー数格差解消への挑戦

おそらくGeminiの印象的なAI画像エディターは、GoogleがOpenAIとのユーザー格差を縮めるのに役立つだろう。ChatGPTは現在、週間7億人以上のユーザーを記録している。7月のGoogle決算説明会で、同社CEO Sundar Pichai(スンダー・ピチャイ)氏はGeminiが月間4億5,000万人のユーザーを持つと明かしたが、これは週間ユーザーがさらに少ないことを示唆している。

消費者向け設計、家庭・庭園プロジェクトに対応

Brichtova氏によると、Googleはこの画像モデルを家庭・庭園プロジェクトの視覚化支援など、消費者の使用事例を念頭に特別に設計した。このモデルはまた、より優れた「世界知識」を持ち、単一プロンプト内で複数の参照を組み合わせることができる。例えば、ソファ、リビングルームの写真、カラーパレットの画像を1つの統合されたレンダリングに融合できる。

さらに、Gemini 2.5 Flash Imageはユーザーが AI画像モデルと「マルチターン」会話を行うことを可能にし、段階的に画像を編集・改良できる。

安全対策強化、過去の問題を教訓に改善

Geminiの新AI画像生成機能により、ユーザーはリアルな画像の作成・編集がより簡単になるが、同社はユーザーが作成できるものを制限する安全装置を設けている。Googleは過去にAI画像生成の安全装置で苦労した経験がある。一時期、同社は歴史的に不正確な人物の画像を生成したことを謝罪し、AI画像生成機能を全面的に撤回した。

現在、Googleはより良いバランスを取れていると考えている。「ユーザーがモデルから望むものを得られるよう創造的制御を提供したい」とBrichtova氏は述べた。「しかし何でもありというわけではない」。

Googleの利用規約の生成AI部分では、「非同意的な親密画像」の生成を禁止している。同種の安全装置は、Taylor Swift(テイラー・スウィフト)氏などの有名人に似たAI生成の露骨な画像の作成を許可したGrokには存在しないようだ。

ディープフェイク対策、視覚的透かし技術導入

オンラインで何が本物かをユーザーが判別することを困難にするディープフェイク画像の増加に対処するため、Brichtova氏によるとGoogleはAI生成画像に視覚的透かしとメタデータ内の識別子を適用している。しかし、ソーシャルメディアで画像をスクロールしている人は、そのような識別子を探さない可能性がある。

引用元: TechCrunch Google Gemini’s AI image model gets a ‘bananas’ upgrade https://techcrunch.com/2025/08/26/google-geminis-ai-image-model-gets-a-bananas-upgrade/

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です