AIは歴史分野が苦手、新研究で判明

AI

  • 主要なAIモデルの歴史分野における正答率が46%程度と低水準であることが判明。
  • AIは基本的な事実は把握できるが、博士レベルの高度な歴史的考察は困難である。
  • 歴史データの偏りにより、特定地域に関する質問での正確性が低下する傾向に。
  • 研究者らは、将来的な歴史研究へのAI活用に向けて改善を続けている。

Hist-LLMベンチマークによる評価

最新の研究で、AIはコーディングやポッドキャスト生成などの特定タスクでは優れた能力を示すものの、高度な歴史試験では及第点に達していないことが新たな研究で明らかになった。

研究チームは、OpenAIのGPT-4、MetaのLlama、GoogleのGeminiという3つの主要な大規模言語モデル(LLM)を対象に、新しいベンチマーク「Hist-LLM」を作成した。このベンチマークは、古代エジプトの知恵の女神にちなんで名付けられた歴史知識の大規模データベース「Seshat Global History Databank」に基づいて回答の正確性を評価している。

オーストリアを拠点とする研究機関Complexity Science Hub(CSH)の研究者らによると、先月のトップAI会議NeurIPSで発表された結果は期待外れのものだった。最も成績の良かったGPT-4 Turboでさえ、正答率は約46%に留まり、ランダムな推測とさほど変わらない結果となった。

AIの誤った回答と課題

University College Londonのコンピュータサイエンス准教授で、論文の共著者であるMaria del Rio-Chanona(マリア・デル・リオ=チャノナ)氏は、「この研究の主要な発見は、LLMが印象的な能力を持つ一方で、高度な歴史理解に必要な深い洞察力が依然として不足しているということだ。基本的な事実は扱えるが、より微妙な博士レベルの歴史的探究となると、まだ十分な能力に達していない」と述べている。

研究者らが提供したサンプル問題では、例えばGPT-4 Turboは古代エジプトの特定時期における鱗状甲冑の存在について問われ、存在すると回答したが、実際にその技術が登場したのは1,500年後のエジプトだった。

Del Rio-Chanona氏は、LLMが目立つ歴史データから推測を行う傾向があり、より曖昧な歴史知識の取り出しが困難であると説明している。例えば、古代エジプトの特定時期における常備軍の存在について、正解は「存在しない」であるにもかかわらず、ペルシャなど他の古代帝国の常備軍に関する公開情報が豊富なため、LLMは誤って「存在する」と回答している。

今後の展望

研究を主導したCSHのPeter Turchin(ピーター・ターチン)氏は、特定分野においてLLMはまだ人間の代替となれないと指摘している。しかし研究者らは、代表性の低い地域からのデータ追加や、より複雑な質問の導入によってベンチマークを改良し、将来的な歴史研究におけるAIの活用可能性に期待を寄せている。

引用元:TechCrunch
AI isn’t very good at history, new paper finds

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です