AIの能力評価にIQテストが不適切である理由

専門家らは、人間用に設計されたIQテストをAIの能力評価に用いることは不適切だと指摘。
AIは膨大なメモリと学習データを持つため、IQテストで有利な立場にある点を考慮する必要がある。
より適切なAI評価方法の開発が求められている。

IQテストをAI評価に用いる問題提起

OpenAIのSam Altman（サム・アルトマン）氏は最近の記者会見で、AIの「IQ」が過去数年間で急速に向上していると述べた。「厳密な科学的根拠はないが、感覚的に毎年1標準偏差ずつIQが上昇している」という見解を示している。

AIの進歩のベンチマークとして、人の知能を推定するIQを使用したのはアルトマン氏が初めてではなく、ソーシャルメディア上のAIインフルエンサーは、モデルにIQテストを行い、結果をランク付けすることがよくある。しかし、多くの専門家はAIの能力評価にIQテストを用いることに疑問を投げかけている。

Claude-3 by @AnthropicAI blows the other AIs out of the water in terms of passing an IQ test.

It’s the first AI to score over 100.

My report linked in the comment below pic.twitter.com/Z5fSF2W5XA

— Maxim Lott (@maximlott) March 5, 2024

専門研究者の見解

オックスフォード大学でテクノロジーと規制を研究するSandra Wachter（サンドラ・ワクター）氏は、「人間の能力評価指標をAIに適用したくなる誘惑があるが、これはリンゴとオレンジを比較するようなものだ」と指摘する。車が人間より速く、潜水艦が深く潜れるからといって、それらが人間の知能を超えているとは言えないと説明している。

IQテストは、作業記憶力と西洋文化規範の知識を必要とし、一部の歴史家は優生学にその起源を求めている。ワシントン大学のOs Keyes（オズ・キーズ）氏は、AIがIQテストで好成績を収めることは、テスト自体の欠陥を示すものだと指摘する。

キングスカレッジロンドンのMike Cook（マイク・クック）氏によると、AIは膨大なメモリと内部化された知識を持ち、多くの場合ウェブ上のIQテスト問題例を含むデータで訓練されている。「人間と違い、AIは100万回の完璧な明確さで情報を処理できる」と説明し、AIが人間と比べて不当な優位性をもっていることを指摘している。

新たな評価基準の必要性

AI Now InstituteのチーフAIサイエンティストHeidy Khlaaf（ハイディ・クラーフ）氏は、コンピューティングの歴史において、システムの性能を人間の能力と直接比較することは最近の現象であり、議論の的となっていると指摘。AIシステムを評価するための新しいベンチマークの開発が必要だとしている。

引用元：TechCrunch
Why IQ is a poor test for AI