AI 评分大学论文尚不成熟,奖励“风格”而非“实质”
剑桥大学牵头的一项最新研究揭示,当前最先进的生成式人工智能尚不足以胜任大学论文评分工作。研究团队分析了来自三所英国大学的 750 多篇心理学本科论文后发现,AI 给出的等级分类与人类评分员一致的频率仅在一半左右。更严重的是,AI 普遍存在“奖优罚劣”的偏差:倾向于高估平庸之作,却低估顶尖或不及格的论文。 研究人员发现,AI 评分机制过度依赖语言风格特征,如篇幅长短、词汇丰富度和句式复杂度,而忽视了学术内容的实质质量。这种“风格大于内容”的倾向导致 AI 在判断成绩边界时失误最多,例如将本应获得“一等荣誉”的高分论文判定为“二等一”,反之亦然。相比之下,人类评分基于深度 reasoning(推理与判断),而 AI 仅依赖统计预测,这种本质差异造成了评分的不一致性和中心性偏差。 尽管目前 AI 在错误检测和一致性检查方面可作为辅助工具,例如通过标记与人工评分差异巨大的作业来提示需要复核,但研究者强烈警告,绝不能完全依赖 AI 进行最终评分。AI 生成的反馈往往冗长且难以区分人机界限,一旦学生知晓评分者身份,便会产生被欺骗感,进而削弱师生间的信任与教育意义。 该报告强调,评分不仅是分发分数的过程,更是构建教育意义、维护学术标准的关键环节。盲目采用 AI 自动化评分可能导致学生才华被低估、学术判断被同质化,并损害高等教育的核心信任关系。因此,研究团队建议,在可预见的未来,人类考官必须始终掌握最终评分权,AI 仅能作为减轻工作负担的辅助手段,而非替代者。
