OpenAIの新型「GPT-4.1」AIモデル群はコーディングに特化

OpenAI ChatGPT

  • OpenAIがコーディングと指示遵守に優れた「GPT-4.1」モデルファミリーを発表
  • 100万トークンのコンテキストウィンドウを持ち、約75万語を一度に処理可能
  • GoogleやAnthropicによる高性能コーディングモデルとの競争が激化

OpenAIが発表したGPT-4.1シリーズ

OpenAIは月曜日、GPT-4.1と名付けられた新しいモデルファミリーを発表した。そう、「4.1」である—同社の命名法がすでに十分紛らわしいかのように。

GPT-4.1、GPT-4.1 mini、GPT-4.1 nanoの3種類が発表され、いずれもOpenAIによればコーディングと指示遵守に「秀でている」とのことだ。これらはOpenAIのAPIを通じて利用可能だが、ChatGPTでは利用できない。マルチモーダルモデルで100万トークンのコンテキストウィンドウを持ち、一度に約75万語(「戦争と平和」より長い)を処理できる。

GPT-4.1の登場は、GoogleやAnthropicなどのOpenAIのライバルが高度なプログラミングモデル構築の取り組みを強化している時期と重なる。最近リリースされたGoogleのGemini 2.5 Proも100万トークンのコンテキストウィンドウを持ち、人気のコーディングベンチマークで高いランクを獲得している。AnthropicのClaude 3.7 Sonnetや中国のAIスタートアップDeepSeekのアップグレードされたV3も同様だ。

エージェント型ソフトウェアエンジニアへの野望

OpenAIを含む多くのテック大手の目標は、複雑なソフトウェアエンジニアリングタスクを実行できるAIコーディングモデルを訓練することだ。OpenAIの大きな野望は、CFOのサラ・フライアー氏(Sarah Friar)が先月ロンドンのテックサミットで述べたように、「エージェント型ソフトウェアエンジニア」を作ることである。同社は将来のモデルがアプリ全体をエンドツーエンドでプログラミングでき、品質保証、バグテスト、ドキュメント作成などの側面も処理できるようになると主張している。

GPT-4.1はこの方向への一歩である。

「我々は開発者が最も気にする分野での改善に関する直接のフィードバックに基づいて、実世界での使用のためにGPT-4.1を最適化した:フロントエンドコーディング、余分な編集の削減、フォーマットの確実な遵守、レスポンス構造と順序の遵守、一貫したツール使用など」とOpenAIの広報担当者はTechCrunchに電子メールで語った。「これらの改善により、開発者は実世界のソフトウェアエンジニアリングタスクにおいて大幅に優れたエージェントを構築できるようになる」

モデルのパフォーマンスと価格

OpenAIによれば、フルサイズのGPT-4.1モデルはSWE-benchを含むコーディングベンチマークでGPT-4oおよびGPT-4o miniモデルを上回るパフォーマンスを示すという。GPT-4.1 miniとnanoは効率と速度が向上しているが、精度が多少犠牲になっており、OpenAIはGPT-4.1 nanoが同社史上最速かつ最も安価なモデルだとしている。

GPT-4.1の価格は入力トークン100万あたり2ドル(約300円)、出力トークン100万あたり8ドル(約1,200円)。GPT-4.1 miniは入力トークン100万あたり0.40ドル(約60円)、出力トークン100万あたり1.60ドル(約240円)で、GPT-4.1 nanoは入力トークン100万あたり0.10ドル(約15円)、出力トークン100万あたり0.40ドル(約60円)だ。

OpenAIの内部テストによると、GPT-4oよりも一度に多くのトークン(32,768対16,384)を生成できるGPT-4.1は、SWE-bench Verified(SWE-benchの人間が検証したサブセット)で52%から54.6%のスコアを獲得した。(OpenAIはブログ投稿で、SWE-bench Verifiedの問題の一部の解決策が同社のインフラストラクチャ上で実行できなかったため、スコアが範囲になっていると述べている)。これらの数値は、同じベンチマークにおけるGoogleのGemini 2.5 Pro(63.8%)およびAnthropicのClaude 3.7 Sonnet(62.3%)のスコアをやや下回っている。

GPT-4.1の限界と課題

別の評価では、OpenAIはVideo-MMEを使用してGPT-4.1を検証した。これはモデルがビデオのコンテンツを「理解する」能力を測定するためのものだ。OpenAIによれば、GPT-4.1は「長い、字幕なし」ビデオカテゴリで72%の精度を達成し、トップの成績を収めたという。

GPT-4.1はベンチマークで合理的に良好なスコアを獲得し、より最近の「知識カットオフ」(2024年6月まで)を持ち、現在のイベントに関するより良い参照枠を提供しているが、今日の最高のモデルでさえ、専門家が躓かないタスクで苦戦することがあることを念頭に置くことが重要だ。例えば、多くの研究によれば、コード生成モデルはセキュリティの脆弱性やバグを修正できないだけでなく、それらを導入することもあることが示されている。

OpenAIも、GPT-4.1が処理する入力トークンが多いほど信頼性が低下する(つまり、ミスを犯す可能性が高まる)ことを認めている。同社独自のテストの一つであるOpenAI-MRCRでは、モデルの精度が8,000トークンでは約84%だったのに対し、100万トークンでは50%に低下した。また、同社によれば、GPT-4.1はGPT-4oよりも「文字通り」の解釈をする傾向があり、時にはより具体的で明示的なプロンプトが必要になることもあるという。

引用元:TechCrunch
OpenAI’s new GPT-4.1 AI models focus on coding

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です