- OpenAIがChatGPTに新たな汎用AIエージェントを導入。ユーザーに代わりPCベースの多様なタスクを完了する。
- ChatGPTエージェントは、既存のエージェントツール「Operator」と「Deep Research」の機能を統合。自然言語によるプロンプトで操作が可能だ。
- ベンチマークテストでは既存モデルを大幅に上回る性能を示し、特に「Humanity’s Last Exam」では41.6%、「FrontierMath」では27.4%を記録した。
- 生物兵器や化学兵器関連の領域で「高能力」と分類されており、悪用防止のための新たな安全対策が導入されている。
ChatGPTエージェントの概要と機能
OpenAIは、ChatGPTに新しい汎用AIエージェントを導入した。このエージェントは、ユーザーに代わって幅広いコンピューターベースのタスクを完了することが可能であると、同社は述べている。OpenAIは、このエージェントがユーザーのカレンダーを自動で操作したり、編集可能なプレゼンテーションやスライドショーを生成したり、コードを実行したりできると説明している。
「ChatGPTエージェント」と名付けられたこのツールは、OpenAIがこれまで提供してきた複数のエージェントツールの機能を統合したものだ。「Operator」のウェブサイトを操作する能力と、「Deep Research」の数十のウェブサイトから情報を統合し簡潔な調査レポートを作成する能力を兼ね備える。ユーザーはChatGPTに自然言語でプロンプトを入力するだけで、エージェントと対話できるとOpenAIは述べている。
ChatGPTエージェントは、木曜日よりOpenAIのPro、Plus、Teamプランの購読者向けに順次展開される。ツールをアクティブ化するには、ChatGPTのツールメニューのドロップダウンから「エージェントモード」を選択する。
ChatGPT can now do work for you using its own computer.
Introducing ChatGPT agent—a unified agentic system combining Operator’s action-taking remote browser, deep research’s web synthesis, and ChatGPT’s conversational strengths. pic.twitter.com/7uN2Nc6nBQ
— OpenAI (@OpenAI) July 17, 2025
AIエージェントの進化とOpenAIの挑戦
ChatGPTエージェントのローンチは、ChatGPTを単に質問に答えるだけでなく、ユーザーのためにアクションを実行し、タスクを代行するエージェント製品へと進化させるためのOpenAIによるこれまでで最も大胆な試みである。近年、OpenAI、Google、Perplexityといったシリコンバレーの企業は、同様の機能を持つ多数のAIエージェントを発表してきた。しかし、これらの初期のAIエージェントは複雑なタスクに対処する上で苦戦することが多く、技術経営者たちが描くAIエージェントの究極のビジョンと比較すると、製品としての魅力に欠ける側面があった。
だが、OpenAIはChatGPTエージェントがこれまでの自社の提供物よりもはるかに高い能力を持つと主張している。
同社の新しいエージェントは「ChatGPTコネクタ」にアクセスでき、ユーザーはGmailやGitHubのようなアプリを接続することで、エージェントがプロンプトに関連する情報を見つけ出すことが可能となる。ChatGPTエージェントはターミナルへのアクセスを持ち、APIを使用して特定のアプリにアクセスできるとOpenAIは説明している。
OpenAIは、ユーザーがChatGPTエージェントを使って「4人分の和朝食の材料を計画し購入する」ことや、「3つの競合他社を分析してスライドデッキを作成する」ことを提案している。これらの機能は、ChatGPTエージェントがウェブサイトを解析し、行動計画を立て、ツールを使用することを要求するもので、OpenAIがこれまでエージェントで取り組んできたよりもはるかに複雑なタスクである。
ベンチマーク性能と安全性への取り組み
OpenAIによると、ChatGPTエージェントの基盤となるモデルは、いくつかのベンチマークで最先端の性能を発揮する。
同社は、ChatGPTエージェントモデルが「Humanity’s Last Exam」(pass@1)で41.6%を記録したと述べている。「Humanity’s Last Exam」は、100以上の科目からなる数千の質問で構成される難解なテストである。これは、OpenAIのo3およびo4-miniが同テストで記録したスコアの約2倍に相当する。
最も難解な数学ベンチマークの一つである「FrontierMath」では、コード実行用のターミナルなどのツールにアクセスできる場合、ChatGPTエージェントは27.4%を記録したとOpenAIは説明する。これまでの最先端スコアはo4-miniによるもので、わずか6.3%であった。
OpenAIは、ChatGPTエージェントが悪意のあるユーザーの手に渡った場合に、より危険な能力を発揮する可能性があるため、安全性を考慮して開発したと指摘している。OpenAIは以前から、エージェントモデルがより危険な能力をもたらす可能性があると警告していた。
ChatGPTエージェントの安全報告書において、OpenAIは本モデルを生物兵器および化学兵器の領域で「高能力」に指定している。これは、OpenAIのPreparedness Frameworkにおいて「既存の深刻な危害経路を増幅する能力を持つモデル」と定義される。OpenAIはこれに関して直接的な証拠はないものの、予防的なアプローチを取り、これらのリスクを軽減するための新たな安全対策を活性化することを決定したと述べている。
ChatGPTエージェントの新しい安全対策には、ユーザーが製品と対話する際にリアルタイムで機能するモニターが含まれる。OpenAIは、ChatGPTエージェントに入力されたすべてのプロンプトに対して分類器を実行し、要求が生物学に関連するかどうかを判断すると述べている。もし関連する場合、OpenAIはChatGPTエージェントの応答を別のモニターで実行し、その内容が生物学的脅威を引き起こす可能性がないかを判断する。
OpenAIはまた、悪用を防ぐため、このエージェントのChatGPTの記憶機能を無効にしたと述べている。ChatGPTの他の部分では、OpenAIの記憶機能により、チャットボットは以前のユーザーチャットからの情報を参照できる。しかし、OpenAIは、悪意のあるアクターがプロンプトインジェクション攻撃を通じて機密データを抜き出すために、ChatGPTエージェントのこの機能を使用する可能性があると説明する。同社は、将来的にこの機能の再追加を検討する可能性もあると述べている。
ChatGPTエージェントは印象的な機能を持つように聞こえるが、それが現実世界でどれほどの能力を発揮するかはまだ不明である。これまでのところ、エージェント技術は現実世界と相互作用する際に比較的脆いことが証明されている。しかし、OpenAIはAIエージェントの約束を実現できる、より高性能なモデルを開発したと主張している。
引用元:TechCrunch
OpenAI launches a general purpose agent in ChatGPT