HyperAI超神经

2 个月前

剑桥大学牵头的一项最新研究揭示，当前最先进的生成式人工智能尚不足以胜任大学论文评分工作。研究团队分析了来自三所英国大学的 750 多篇心理学本科论文后发现，AI 给出的等级分类与人类评分员一致的频率仅在一半左右。更严重的是，AI 普遍存在“奖优罚劣”的偏差：倾向于高估平庸之作，却低估顶尖或不及格的论文。研究人员发现，AI 评分机制过度依赖语言风格特征，如篇幅长短、词汇丰富度和句式复杂度，而忽视了学术内容的实质质量。这种“风格大于内容”的倾向导致 AI 在判断成绩边界时失误最多，例如将本应获得“一等荣誉”的高分论文判定为“二等一”，反之亦然。相比之下，人类评分基于深度 reasoning（推理与判断），而 AI 仅依赖统计预测，这种本质差异造成了评分的不一致性和中心性偏差。尽管目前 AI 在错误检测和一致性检查方面可作为辅助工具，例如通过标记与人工评分差异巨大的作业来提示需要复核，但研究者强烈警告，绝不能完全依赖 AI 进行最终评分。AI 生成的反馈往往冗长且难以区分人机界限，一旦学生知晓评分者身份，便会产生被欺骗感，进而削弱师生间的信任与教育意义。该报告强调，评分不仅是分发分数的过程，更是构建教育意义、维护学术标准的关键环节。盲目采用 AI 自动化评分可能导致学生才华被低估、学术判断被同质化，并损害高等教育的核心信任关系。因此，研究团队建议，在可预见的未来，人类考官必须始终掌握最终评分权，AI 仅能作为减轻工作负担的辅助手段，而非替代者。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑

Command Palette

AI 评分大学论文尚不成熟，奖励“风格”而非“实质”

相关链接

Command Palette

AI 评分大学论文尚不成熟，奖励“风格”而非“实质”

相关链接

Command Palette

AI 评分大学论文尚不成熟，奖励“风格”而非“实质”

相关链接

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑