AI はまだ大学エッセイの採点に不適格、スタイルを重視する傾向
ケンブリッジ大学を中心とした研究チームは、最新の生成AIモデルが大学の学士論文を採点する能力に重大な欠陥があることを示す報告書を発表しました。心理学専攻の761 の学生論文を対象に、Claude や ChatGPT などの主要AIモデルをテストした結果、AI の判定が人間による学位評価(一級、二等甲種など)と一致したのは約半分、具体的には 35% から 65% の範囲にとどまりました。特に人間の審査員が最高評価を与えた論文は AI が過小評価し、最低評価の論文は過大評価する傾向が顕著でした。AI は論文の言語的特徴である長さ、語彙の豊富さ、文の複雑さに過度に反応し、学問的実質性よりもスタイルを重視する「スタイル過剰」な傾向が見られました。これは、論文が人間の判断に基づいて理由を推論するのに対し、AI が統計的予測に基づいて採点することに起因する中心的なバイアスです。この結果、AI は特に 1 級と二等甲種の境界など、重要な評価の境界線において最も不正確な結果を示しました。一方で、AI は誤り検出や一貫性チェック、学生へのフィードバックの選別といった補助的な役割としては有用であるとしています。人間と AI の採点に大きな乖離がある場合は、人間の審査員による再評価が必要であるとの示唆も含まれています。研究者らは、AI に頼りすぎると学生の卓越性が過小評価され、評価の画一化を招く危険性を指摘しています。また、学生や教員の多くは、AI による採点が教育の社会的契約を損ない、信頼や動機を弱めると懸念を表明しています。最終的に、採点の最終決定は人間が行うべきであり、AI はあくまで補助ツールとして位置付けるべきであると結論付けられています。この研究は、大学が業務効率化のために AI 活用を進める際に、質と信頼性をどう保つかという重要な課題を浮き彫りにしています。
