- 医療自己診断のためにChatGPTなどのAIチャットボットを利用する人が増加、米国では成人の6人に1人が月に1回以上利用
- オックスフォード大学主導の研究によると、利用者は効果的な健康アドバイスを得るための適切な情報提供に苦戦している
- 研究では約1,300人の参加者がGPT-4o、Cohere Command R+、Meta Llama 3などのチャットボットを使用
- チャットボットは健康状態の特定を困難にし、その深刻度を過小評価させる傾向があることが判明
チャットボットと健康アドバイスの課題
医療システムの長い待機リストと高騰するコストにより、多くの人々が医療自己診断のためにChatGPTなどのAI駆動型チャットボットに頼るようになっている。最近の調査によると、米国の成人の約6人に1人が健康アドバイスのためにチャットボットを少なくとも月に1回は利用しているという。
しかし、チャットボットの出力に過度の信頼を置くことはリスクを伴う可能性がある。最近のオックスフォード大学主導の研究によれば、人々は最適な健康に関する推奨事項を得るためにチャットボットにどのような情報を提供すべきかを知ることに苦戦しているという。
オックスフォード研究の詳細と結果
「この研究は双方向のコミュニケーション障害を明らかにした」とオックスフォード・インターネット研究所の大学院研究ディレクターで同研究の共著者であるAdam Mahdi(アダム・マーディ)氏は語った。「チャットボットを使用した人々は、オンライン検索や自分自身の判断などの従来の方法に頼った参加者よりも良い判断をすることはなかった」
この研究では、著者らは英国で約1,300人を募集し、医師グループによって書かれた医療シナリオを与えた。参加者はシナリオ内の潜在的な健康状態を特定し、チャットボットや自分自身の方法を使用して、取りうる行動(例:医師の診察を受ける、病院に行くなど)を判断するよう指示された。
参加者はChatGPTを動かすデフォルトAIモデルであるGPT-4o、CohereのCommand R+、そして以前Meta AIアシスタントを支えていたMetaのLlama 3を使用した。著者らによると、チャットボットは参加者が関連する健康状態を特定する可能性を低くしただけでなく、特定した状態の深刻度を過小評価する可能性を高めたという。
Mahdi(マーディ)氏によれば、参加者はチャットボットに質問する際に重要な詳細を省略したり、解釈が難しい回答を受け取ったりすることが多かったという。
「彼らがチャットボットから受け取った回答は、良い推奨と悪い推奨が頻繁に組み合わさっていた」と彼は付け加えた。「チャットボットの現在の評価方法は、人間のユーザーとの相互作用の複雑さを反映していない」
テクノロジー企業の医療AI展開と専門家の懸念
この調査結果は、テクノロジー企業が健康状態を改善する方法としてAIを推進する動きが高まる中で発表された。Appleは運動、食事、睡眠に関するアドバイスを提供できるAIツールを開発中と伝えられている。Amazonは「健康の社会的決定要因」のために医療データベースを分析するAIベースの方法を探索している。そしてMicrosoftは患者から送られるケアプロバイダーへのメッセージを振り分けるAIの構築を支援している。
しかし、専門家と患者の両方がAIがより高リスクの健康アプリケーションに対応する準備ができているかどうかについて意見が分かれている。米国医師会はChatGPTのようなチャットボットを臨床判断の支援に使用することを医師に推奨しておらず、OpenAIを含む主要なAI企業はチャットボットの出力に基づいて診断を行うことに対して警告を発している。
「医療の決定については信頼できる情報源に頼ることをお勧めする」とMahdi(マーディ)氏は述べた。「チャットボットの現在の評価方法は、人間のユーザーとの相互作用の複雑さを反映していない。新薬の臨床試験と同様に、チャットボットシステムは導入される前に実際の環境でテストされるべきだ」
引用元:TechCrunch
People struggle to get useful health advice from chatbots, study finds