ChatGPTの画像生成機能が大幅アップグレード

OpenAI ChatGPT

  • GPT-4oモデルを活用した画像生成・編集機能の追加
  • DALL-E 3より精度の高い画像生成が可能に
  • 有料プランは即時提供、無料ユーザーへも順次展開

過去1年で最大の大型アップデート

火曜日のライブストリームで、OpenAIのサム・アルトマンCEOは、ChatGPTの画像生成機能に対する1年以上ぶりの大型アップグレードを発表した。ChatGPTは同社のGPT-4oモデルを活用して、画像や写真をネイティブに作成・修正できるようになった。GPT-4oはこれまでもAIチャットボットプラットフォームの基盤となっていたが、これまではテキストの生成・編集のみが可能で、画像は扱えなかった。

機能提供の詳細

アルトマン氏によると、GPT-4oネイティブ画像生成は、同社の月額200ドル(約2万6千円)のProプラン契約者向けにChatGPTとSora(OpenAIのAIビデオ生成製品)で今日からライブ提供される。OpenAIは、この機能がChatGPTのPlusユーザーと無料ユーザー、および同社のAPIサービスを使用する開発者向けにもまもなく展開されると述べている。

DALL-E 3からの進化

画像出力を備えたGPT-4oは、事実上置き換えられる画像生成モデルであるDALL-E 3よりも「思考」時間が少し長いが、OpenAIが「より正確で詳細な画像」と表現する結果を生み出す。GPT-4oは人物を含む既存の画像を編集し、変形させたり、前景や背景のオブジェクトなどの詳細を「インペインティング」したりすることが可能だ。

トレーニングデータと著作権への配慮

OpenAIはウォール・ストリート・ジャーナルに対し、新しい画像機能を強化するためにGPT-4oを「公開されているデータ」およびShutterstockなどの企業とのパートナーシップから得た独自データでトレーニングしたと述べた。同社の最高執行責任者ブラッド・ライトキャップ氏は「出力方法に関して芸術家の権利を尊重し、生存中のアーティストの作品を直接模倣する画像の生成を防ぐポリシーを導入している」と述べている。

クリエイターへの配慮と競合との比較

OpenAIはクリエイターがトレーニングデータセットから自分の作品を削除するよう要求できるオプトアウトフォームを提供している。また、ウェブサイトからトレーニングデータ(画像を含む)を収集するウェブスクレイピングボットを禁止する要求も尊重するとしている。ChatGPTのアップグレードされた画像生成機能は、Googleの主力モデルであるGemini 2.0 Flashのネイティブ画像出力実験に続くものだ。Googleの強力な機能はソーシャルメディアでバイラルになったが、必ずしも最良の理由によるものではなかった。Gemini 2.0 Flashの画像コンポーネントにはほとんどガードレールがなく、ユーザーは透かしを削除したり、著作権で保護されたキャラクターを描いた画像を作成したりすることができた。

引用元:TechCrunch
ChatGPT’s image-generation feature gets an upgrade

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です