AI に「D」:ChatGPT が科学の真偽判定で苦戦
ワシントン州立大学のメシュト・チチェク教授と研究チームは、大規模言語モデル「ChatGPT」が科学論文の根拠を評価する能力に大きな課題があることを示す調査結果を発表しました。研究では、科学論文から抽出した 700 件以上の仮説を ChatGPT に提示し、それが研究によって裏付けられているか(真か偽か)を判定するよう求めました。各質問に対して 10 回繰り返し評価を行った結果、AI は科学的事実の検証において「D」という評価に等しい低い成績を示しました。この実験は、現在の AI が表面的な文章生成には優れているものの、複雑な科学的研究の文脈を深く理解し、論理的に整合性のある真偽判断を下す点では依然として限界があることを浮き彫りにしています。特に、研究手法やデータ解釈の微妙なニュアンスを見極める能力が不足しており、誤った情報や不完全な根拠を真実と誤認するリスクが示唆されました。この研究は、教育や科学リテラシーの分野において AI の出力を鵜呑みにする危険性を警告するものとして注目されています。チームは、今後の AI 開発において、単なる知識の暗記ではなく、批判的思考や科学的推論能力をどのように強化するかが重要だと指摘しています。
