- OpenAIが、AIエージェントツール「Operator」のリリースを準備中。
- コード分析により、MacOS版ChatGPTクライアントに関連機能の痕跡を確認。
- ベンチマークテストでは、特定のタスクで人間を上回る性能を示すも、信頼性に課題。
- 安全性評価において良好な結果を示すものの、専門家からは懸念の声も。
Operatorツールの開発状況
OpenAIは、ユーザーに代わってPC操作を実行できるAIツールをリリースする日が近いかもしれません。
AIプロダクトのリーク情報で知られるソフトウェアエンジニア、ティボル・ブラホ(Tibor Blaho)氏が、OpenAIの噂の「Operator」ツールに関する証拠を発見したと主張している。Bloombergなどの報道によると、Operatorはコード作成や旅行予約などのタスクを自律的に処理できる「エージェント型」システムとされる。
Confirmed – the ChatGPT macOS desktop app has hidden options to define shortcuts for the desktop launcher to “Toggle Operator” and “Force Quit Operator” https://t.co/rSFobi4iPN pic.twitter.com/j19YSlexAS
— Tibor Blaho (@btibor91) January 19, 2025
開発の詳細と性能評価
ブラホ氏によると、MacOS版ChatGPTクライアントには「Toggle Operator」と「Force Quit Operator」のショートカットを定義するオプションが既に実装されているという。また、OpenAIのウェブサイトにはOperatorへの言及が追加されているとされるが、現時点では一般には公開されていない。
OpenAI website already has references to Operator/OpenAI CUA (Computer Use Agent) – “Operator System Card Table”, “Operator Research Eval Table” and “Operator Refusal Rate Table”
Including comparison to Claude 3.5 Sonnet Computer use, Google Mariner, etc.
(preview of tables… pic.twitter.com/OOBgC3ddkU
— Tibor Blaho (@btibor91) January 20, 2025
リークされたベンチマークによると、実際のコンピュータ環境を模したOSWorldでは、Operatorを支えるとされる「OpenAI Computer Use Agent (CUA)」は38.1%のスコアを記録。Anthropicのモデルを上回るものの、人間のスコア72.4%には及ばなかった。ウェブサイトのナビゲーションと操作を評価するWebVoyagerでは人間の性能を上回ったが、別のウェブベースのベンチマークWebArenaでは人間のレベルに達していない。
安全性への懸念と業界の動向
リークされた資料によると、Operatorは「違法行為」や「機密性の高い個人データの検索」などの安全性評価において良好な結果を示している。OpenAIの共同創業者のヴォイチェフ・ザレンバ(Wojciech Zaremba)氏は、安全性対策が不十分だとしてAnthropicのエージェントリリースを批判している。
市場調査会社Markets and Marketsによると、AIエージェント市場は2030年までに471億ドル規模に達する可能性があるという。しかし、一部の専門家からは、技術が急速に進歩した場合の安全性に関する懸念も提起されている。
Where does the gap between perception and reality on AGI company safety come from?https://t.co/hu2UBxwkSW — Elon is very vocal about safety, but so far, no one at https://t.co/hu2UBxwkSW works on safety.
Anthropic — just released a computer-using agent without any safety…
— Wojciech Zaremba (@woj_zaremba) December 14, 2024
引用元:TechCrunch
OpenAI’s agent tool may be nearing release