イーロン・マスク、AIトレーニングデータの枯渇を指摘

Elon Musk

要点まとめ

  • 利用可能な実世界のAIトレーニングデータが限界に達したことが指摘される
  • AIモデルの今後の開発には合成データの活用が不可欠との見方
  • 合成データの使用には、コスト削減などのメリットとモデル崩壊などのリスクが存在

トレーニングデータの限界到達を示唆

Elon Musk氏は1月8日深夜、ソーシャルメディアXでのライブ配信中、StagwellのMark Penn会長との対話で「2023年中に、人類の知識の集積をAIトレーニングにおいてほぼ使い尽くした」と述べた。この見解は、2023年12月の機械学習会議NeurIPSで、OpenAIの元チーフサイエンティストであるIlya Sutskever氏が言及した「ピークデータ」という概念と一致している。

合成データへの移行

AI企業xAIのオーナーでもあるマスク氏は、今後の展開として合成データ、すなわちAIモデル自体が生成するデータの活用を提案した。「実世界のデータを補完する唯一の方法は合成データであり、AIが自己学習のプロセスを通じてトレーニングデータを作成していく」と説明している。Microsoft、Meta、OpenAI、Anthropicなどの大手テック企業は既に主力AIモデルのトレーニングに合成データを使用している。Gartnerの推定によれば、2024年のAIおよび分析プロジェクトで使用されるデータの60%が合成的に生成されたものになるという。

合成データの利点とリスク

1月8日早朝にオープンソース化されたMicrosoftのPhi-4や、GoogleのGemmaモデル、Anthropicの最新モデルClaude 3.5 Sonnetなど、多くの最新AIモデルが合成データを活用している。AIスタートアップのWriterによれば、ほぼ完全に合成データを使用して開発されたPalmyra X 004モデルの開発コストは70万ドルで、同規模のOpenAIモデルの推定コスト460万ドルと比較して大幅な削減を実現した。一方で、合成データの使用には「モデル崩壊」のリスクも指摘されている。これは、モデルの出力が徐々に創造性を失い、偏りが生じ、最終的に機能が深刻に損なわれる現象を指す。

引用元:TechCrunch
Elon Musk agrees that we’ve exhausted AI training data

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です