Anthropic:Claude 3.7 Sonnet、好きなだけ「考え続ける」新AIモデルをリリース

Anthropic

  • Anthropicが業界初の「ハイブリッドAI推論モデル」Claude 3.7 Sonnetを発表
  • ユーザーはリアルタイム応答と長時間の「思考」を経た回答を選択可能
  • 推論機能は有料プランユーザーのみ利用可能、トークン価格はOpenAIより高め
  • 同時に開発者向けのエージェントツール「Claude Code」も限定公開

Anthropicが、ユーザーが望む限り「考え続ける」新型フロンティアAIモデル「Claude 3.7 Sonnet」をリリースした。

業界初の「ハイブリッドAI推論モデル」の特徴

Anthropicはこの新モデルを「業界初のハイブリッドAI推論モデル」と呼んでいる。これは単一のモデルでありながら、リアルタイムの回答と、より熟考された「思考済み」の回答の両方を提供できるためだ。ユーザーはAIモデルの「推論」能力を有効にするかどうかを選択でき、有効にするとClaude 3.7 Sonnetは短時間または長時間「考える」ことになる。

このモデルはAnthropicがAI製品周りのユーザー体験を簡素化する広範な取り組みを表している。現在の多くのAIチャットボットには、コストと能力が異なる複数のオプションからユーザーに選択を強いる、扱いにくいモデル選択画面がある。Anthropicのようなラボはユーザーにそれについて考えさせたくないのが本音で、理想的には1つのモデルがすべての作業を行うことを目指している。

有料プラン限定の推論機能とトークン価格

Anthropicによると、Claude 3.7 Sonnetは月曜日にすべてのユーザーと開発者に向けて提供を開始するが、モデルの推論機能にアクセスできるのはAnthropicのプレミアムClaudeチャットボットプランを支払っているユーザーのみとなる。無料のClaudeユーザーは標準的な非推論版のClaude 3.7 Sonnetを利用でき、Anthropicによれば以前のフロンティアAIモデルであるClaude 3.5 Sonnetよりも性能が向上しているとのこと(3.6はスキップ)。

Claude 3.7 Sonnetの価格は、入力トークン100万件あたり3ドル(約450円)(これは約75万語、『ロード・オブ・ザ・リング』シリーズ全巻よりも多い単語数をClaudeに3ドルで入力できることを意味する)、出力トークン100万件あたり15ドル(約2,250円)となる。これはOpenAIのo3-mini(入力トークン100万件あたり1.10ドル/出力トークン100万件あたり4.40ドル)やDeepSeekのR1(入力トークン100万件あたり0.55ドル/出力トークン100万件あたり2.19ドル)よりも高価だが、o3-miniとR1は純粋な推論モデルであり、Claude 3.7 Sonnetのようなハイブリッドではないことに留意する必要がある。

AIの「推論」能力と内部思考プロセスの可視化

Claude 3.7 Sonnetは「推論」できるAnthropicの初のAIモデルであり、多くのAIラボが従来のAI性能向上手法が頭打ちになるにつれて、この技術に注目している。

o3-mini、R1、GoogleのGemini 2.0 Flash Thinking、xAIのGrok 3(Think)などの推論モデルは、質問に答える前により多くの時間と計算能力を使用する。これらのモデルは問題をより小さなステップに分解し、最終的な回答の精度を向上させる傾向がある。推論モデルは必ずしも人間のように考えたり推論したりするわけではないが、そのプロセスは演繹的思考に基づいている。

最終的にAnthropicは、ユーザーが事前にコントロールを選択する必要なく、Claudeが質問についてどれくらい「考える」べきかを自分で判断できるようになることを望んでいると、Anthropicの製品・研究リーダーであるDianne Penn(ディアン・ペン)氏はインタビューで語った。

「人間が即座に答えられる質問と思考を要する質問のために別々の脳を持っていないのと同様に、我々は推論を単にフロンティアモデルが持つべき能力の一つとみなし、別のモデルで提供されるものではなく、他の能力とスムーズに統合されるべきものだと考えている」とAnthropicはTechCrunchと共有したブログ記事で述べている。

Anthropicは「目に見えるスクラッチパッド」を通じて、Claude 3.7 Sonnetに内部計画フェーズを表示させることを許可している。ペン氏はユーザーはほとんどのプロンプトに対するClaudeの完全な思考プロセスを見ることができるが、信頼性と安全性の目的で一部の部分が編集される場合があると述べた。

ベンチマーク性能と新ツール「Claude Code」

Anthropicによれば、実際のコーディングタスクを測定するテストSWE-Benchでは、Claude 3.7 Sonnetの精度は62.3%で、OpenAIのo3-miniモデルの49.3%を上回った。また、小売環境でシミュレートされたユーザーや外部APIとのAIモデルの対話能力を測定する別のテストTAU-Benchでは、Claude 3.7 Sonnetは81.2%のスコアを獲得し、OpenAIのo1モデルの73.5%を上回った。

また、Anthropicはこのモデルが以前のモデルと比較して質問への回答を拒否する頻度が低くなると述べており、有害なプロンプトと無害なプロンプトをより微妙に区別できるとしている。Anthropicによると、Claude 3.5 Sonnetと比較して不必要な拒否を45%削減したという。これは、一部の他のAIラボがAIチャットボットの回答制限へのアプローチを再考している時期と重なる。

Claude 3.7 Sonnetに加えて、AnthropicはClaude Codeというエージェント型コーディングツールもリリースする。研究プレビューとして発表されるこのツールを使用すると、開発者はターミナルから直接Claudeを通して特定のタスクを実行できる。

デモでは、Anthropicの従業員がClaude Codeが「このプロジェクト構造を説明して」などの単純なコマンドでコーディングプロジェクトを分析できることを示した。コマンドラインで平易な英語を使用して、開発者はコードベースを修正できる。Claude Codeは変更を加える際にその編集内容を説明し、エラーのプロジェクトをテストしたり、GitHubリポジトリにプッシュしたりすることさえできる。

Anthropicの広報担当者によると、Claude Codeは当初「先着順」で限られた数のユーザーに提供される予定だという。

AnthropicがClaude 3.7 Sonnetをリリースするのは、AIラボが猛烈なペースで新しいAIモデルを提供している時期だ。Anthropicは歴史的に、より方法論的で安全性を重視したアプローチを取ってきた。しかし今回は、同社が先頭に立つことを目指している。

しかし、それがどれくらい続くかが問題だ。OpenAIも独自のハイブリッドAIモデルのリリースに近づいている可能性がある。同社のCEOであるSam Altman(サム・オルトマン)氏は、「数ヶ月以内」に登場すると述べている。

引用元:TechCrunch
Anthropic launches a new AI model that ‘thinks’ as long as you want

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です