OpenAI、史上最大のAIモデル「GPT-4.5 Orion」を発表

OpenAI ChatGPT

  • OpenAIが木曜日に同社最大のAIモデル「GPT-4.5(コードネーム:Orion)」を発表
  • ChatGPT Proユーザー(月額200ドル)は木曜日から研究プレビューとしてアクセス可能
  • 従来のモデルよりベンチマークで優れた結果を示す一方、新しい「推論」モデルには一部及ばない
  • 実行コストが非常に高く、APIでの長期的な提供については検討中と同社が認める

OpenAIが待望の大規模モデル「GPT-4.5 Orion」を発表

OpenAIは木曜日、待望のAIモデル「GPT-4.5」(コードネーム:Orion)の提供開始を発表した。GPT-4.5は同社がこれまでにリリースしたどのモデルよりも多くの計算能力とデータを使って訓練された、OpenAI最大のモデルだ。

その規模にもかかわらず、OpenAIはホワイトペーパーでGPT-4.5をフロンティアモデル(最先端モデル)とは考えていないと述べている。

OpenAIの月額200ドル(約30,000円)のプランであるChatGPT Proの購読者は、研究プレビューの一環として木曜日からChatGPTでGPT-4.5にアクセスできるようになる。OpenAI APIの有料ティアを利用する開発者も、本日からGPT-4.5を使用できる。他のChatGPTユーザーについては、ChatGPT PlusとChatGPT Teamに登録している顧客は来週中にこのモデルを利用できるようになる見込みだとOpenAIの広報担当者は語った。

従来の学習手法の限界が見え始めた「Orion」

業界は、伝統的なAI訓練アプローチの実現可能性のバロメーターとも考えられているOrionに対して固唾を呑んで待っていた。GPT-4.5は、OpenAIがGPT-4、GPT-3、GPT-2、GPT-1を開発するのに使用したのと同じ主要な技術—「教師なし学習」と呼ばれる「事前訓練」フェーズ中に計算能力とデータの量を劇的に増加させること—を用いて開発された。

GPT-4.5以前のすべてのGPT世代では、スケールアップによって数学、文章作成、コーディングなどの領域で大幅なパフォーマンスの向上がもたらされた。実際、OpenAIはGPT-4.5の規模拡大により「より深い世界知識」と「より高い感情知能」を獲得したと述べている。しかし、データと計算能力のスケールアップによる利益が頭打ちになり始めている兆候もある。いくつかのAIベンチマークでは、GPT-4.5は中国のAI企業DeepSeek、Anthropic、そしてOpenAI自身からの新しいAI「推論」モデルに及ばない結果となっている。

高額な運用コストと機能の限界

OpenAIも認めるように、GPT-4.5の実行コストは非常に高い—同社が長期的にAPIでGPT-4.5を提供し続けるかどうかを評価中というほど高額だ。GPT-4.5のAPIにアクセスするために、OpenAIは開発者に入力トークン100万件(約75万語)ごとに75ドル(約11,250円)、出力トークン100万件ごとに150ドル(約22,500円)を課金している。これに対し、GPT-4oは入力トークン100万件あたりわずか2.50ドル(約375円)、出力トークン100万件あたり10ドル(約1,500円)だ。

「私たちはGPT-4.5の強みと限界をよりよく理解するために研究プレビューとして共有している」とブログ記事でOpenAIは述べた。「私たちはまだそれが何に対応できるのかを探求中で、人々が予期していなかった方法でどのように使用するのかを見るのを楽しみにしている。」

ベンチマークでの混合パフォーマンス

OpenAIは、GPT-4.5はAPIとChatGPTの大部分を支える同社の主力モデルであるGPT-4oの代替品となることを意図していないと強調している。GPT-4.5はファイルや画像のアップロード、ChatGPTのキャンバスツールなどの機能をサポートしているが、現時点ではChatGPTのリアルな双方向音声モードのサポートなどの機能が欠けている。

プラス面として、GPT-4.5はGPT-4o—そして他の多くのモデル—よりもパフォーマンスが高い。

OpenAIのSimpleQAベンチマーク(AIモデルを単純で事実に基づく質問でテストするもの)では、GPT-4.5は精度の面でGPT-4oやOpenAIの推論モデルであるo1およびo3-miniを上回っている。OpenAIによると、GPT-4.5は他のほとんどのモデルよりも幻覚(誤った情報の生成)が少なく、理論的にはでっち上げをする可能性が低いとされる。

OpenAIはSimpleQAにおいて、同社のトップパフォーマンスAI推論モデルの一つであるdeep researchをリストしていない。OpenAIの広報担当者はTechCrunchに対し、このベンチマークにおけるdeep researchのパフォーマンスを公に報告しておらず、関連した比較ではないと主張している。注目すべきは、他のベンチマークでOpenAIのdeep researchと同様のパフォーマンスを示すAIスタートアップPerplexityのDeep Researchモデルが、この事実の正確さのテストでGPT-4.5を上回っていることだ。

コーディングと創造性におけるパフォーマンス

コーディング問題のサブセットであるSWE-Bench Verifiedベンチマークでは、GPT-4.5はGPT-4oとo3-miniのパフォーマンスにほぼ匹敵するが、OpenAIのdeep researchAnthropicのClaude 3.7 Sonnetには及ばない。別のコーディングテスト、OpenAIのSWE-Lancerベンチマーク(AIモデルの完全なソフトウェア機能開発能力を測定するもの)では、GPT-4.5はGPT-4oとo3-miniを上回るが、deep researchには及ばない。

GPT-4.5は、AIMEやGPQAなどの難しい学術ベンチマークにおいて、o3-mini、DeepSeekのR1、Claude 3.7 Sonnet(厳密にはハイブリッドモデル)などの主要なAI推論モデルのパフォーマンスには完全に到達しない。しかし、GPT-4.5は同じテストで主要な非推論モデルと同等かそれ以上のパフォーマンスを示し、数学や科学関連の問題でうまく機能することを示唆している。

OpenAIはまた、GPT-4.5が人間の意図を理解する能力など、ベンチマークでは十分に捉えられない領域で他のモデルよりも「質的に」優れていると主張している。OpenAIによれば、GPT-4.5はより温かくより自然な調子で応答し、文章作成やデザインなどの創造的なタスクでうまく機能するという。

あるインフォーマルなテストでは、OpenAIはGPT-4.5と他の2つのモデル、GPT-4oとo3-miniに対して、数式やコードに基づいてグラフィックスを表示するフォーマットであるSVGでユニコーンを作成するよう促した。GPT-4.5だけがユニコーンに似たものを作成できたAIモデルだった。

別のテストでは、OpenAIはGPT-4.5と他の2つのモデルに「テストに落ちて辛い時期を過ごしている」というプロンプトに応答するよう求めた。GPT-4oとo3-miniは役立つ情報を提供したが、GPT-4.5の応答が社会的に最も適切だった。

「学術ベンチマークが常に現実世界での有用性を反映するわけではないことを認識しているため、このリリースを通じてGPT-4.5の能力のより完全な全体像を得ることを楽しみにしている」とOpenAIはブログ記事で書いている。

スケーリング法則の限界と今後のAI開発の方向性

OpenAIはGPT-4.5が「教師なし学習で可能な最先端」にあると主張している。それは事実かもしれないが、このモデルの限界はまた、事前訓練の「スケーリング法則」が継続して有効ではないだろうという専門家の推測を裏付けているようだ。

OpenAIの共同創設者で元チーフサイエンティストのIlya Sutskever(イリヤ・スツケヴァー)氏は12月に「私たちはデータのピークに達した」と述べ、「私たちが知っている事前訓練は間違いなく終わる」と発言した。彼のコメントは、AIの投資家、創設者、研究者が11月の特集記事で語った懸念を反映している。

事前訓練の障壁に対応して、業界—OpenAIを含む—は推論モデルを採用している。これは非推論モデルよりもタスクの実行に時間がかかるが、一貫性が高い傾向がある。AI推論モデルが問題を「考える」ために使用する時間と計算能力を増やすことで、AIラボはモデルの能力を大幅に向上させることができると確信している。

OpenAIは今年後半のGPT-5から始まり、GPTシリーズのモデルとo推論シリーズを最終的に組み合わせる計画だ。GPT-4.5は、訓練コストが非常に高く、数回の遅延があり、社内の期待に応えられなかったと伝えられているが、それだけでAIベンチマークの王冠を獲得することはないかもしれない。しかしOpenAIはおそらく、これをはるかに強力なものへの足がかりとして見ているのだろう。

引用元:TechCrunch
OpenAI unveils GPT-4.5 ‘Orion,’ its largest AI model yet

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です