Sakana AI、自身のコードを書き換え“成長するAI”エージェント「DGM」を発表

Sakana AIが、自身のコードを書き換えて性能を自律的に高めるコーディング向けAIエージェント「ダーウィン・ゲーデル・マシン」（DGM）を発表した。
DGMは、既存のAIモデルとは異なり、自身のPythonコードや内部ツールを修正し、継続的に性能を改善するメカニズムを持つ。
コーディング性能ベンチマークで大幅な改善を達成し、人間が設計したAIエージェントを上回る結果を示した。
安全管理を重視し、サンドボックス環境での人間による監督と厳格な制限のもとで開発されたという。

Sakana AIは5月30日、自身のコードを書き換え、性能を高めるコーディング向けAIエージェント「ダーウィン・ゲーデル・マシン」（DGM）を発表した。ダーウィンの進化論に着想を得たアルゴリズムを活用し、自身のコードを読み取り修正することで、コーディング性能を高められるという。

DGMの自己改善メカニズム

一般的なAIモデルは、事前学習などによって性能を高めるが、学習完了後に自動的に性能が向上することはない。一方DGMでは、自身のPythonコードを読み込み、AIエージェント機能を構成するWeb検索ツールやワークフローなどを自ら修正できる仕組みを採用している。修正後のコーディング性能を自ら評価する機能も備え、継続的に自身の性能を改善できるよう設計された。

驚異的な性能向上

その結果、DGMは、AIエージェントのコーディング性能を測るベンチマーク「SWE-bench」で、20.0％から50.0％まで自動的に性能を高めることに成功した。また、多言語のコーディング性能を評価する「Polyglot」では14.2％から30.7％まで性能を向上させた。これは、人間が設計したAIエージェント「Aider」を超える性能である。DGMが発見した自己改善の手法は、複数の基盤モデルにも適用できると判明しており、例えばAnthropicの「Claude Sonnet 3.5」を基盤モデルとして性能を高めたAIエージェントは、基盤モデルをOpenAIの「o3-mini」に変更しても同様に性能が向上したという。

安全性への配慮

自ら自身の能力を高めるAIシステムにおいては、人が意図しない動作を防ぐなど、安全管理が極めて重要となる。Sakana AIは、DGMの開発について、「全ての自己修正と評価は、安全なサンドボックス環境内で、人間の監督の下、Webアクセスに厳格な制限を設けた上で行われた」と説明している。加えて、DGMの全修正履歴は追跡可能であるという。

ゲーデルマシンからの着想と共同研究

DGMは、AI研究者のユルゲン・シュミットフーバーが提唱した「ゲーデルマシン」に着想を得て開発された。ゲーデルマシンは、数学者クルト・ゲーデルの理論に基づき、AIが自身の性能を改善するという研究分野である。今回、Sakana AIは、ブリティッシュコロンビア大学のジェフ・クルーン教授の研究室と共同で、オープンエンドなアルゴリズムにより、ゲーデルマシンが持つとされる自己改善機能を実現する手法を考案したとしている。

引用元：