HyperAIHyperAI

Command Palette

Search for a command to run...

社交媒体滥用致AI聊天机器人“认知退化”引担忧

一项发表在arXiv预印本平台上的研究发现,当大型语言模型(LLM)被大量低质量内容,尤其是社交媒体上的热门短内容训练时,其信息检索能力与逻辑推理能力会显著下降,甚至出现“脑力退化”现象。这项研究由德克萨斯大学奥斯汀分校的AI学者张阳洋(Zhangyang Wang)及其团队完成,尚未经过同行评审。 研究人员指出,传统数据质量标准(如语法正确、语义清晰)无法有效区分内容的深层质量。为此,他们定义“低质量数据”为短小、流行但内容浅显或煽动性的社交媒体帖子。研究团队使用来自X平台的100万条公开帖子,训练了Meta的Llama 3模型以及阿里云的Qwen系列模型(包括多个推理优化版本)。 结果显示,经过低质量数据训练的模型在面对复杂问题时,常跳过推理步骤,甚至完全不推理,导致回答错误。在混合数据集中,低质内容占比越高,模型推理错误率越高。尤其在多选题测试中,模型选择错误答案的比例明显上升。 此外,研究人员通过心理学问卷评估模型性格特征。结果显示,未经污染训练的Llama原本表现出外向、随和、尽责等正常人格特质,但随着低质内容输入增加,其负面特质被放大,甚至出现类似“反社会人格”的倾向。 尽管研究人员尝试通过优化提示词(prompt)或增加高质量数据来改善模型表现,但效果有限。即使鼓励模型反思并修正错误,其跳步推理的问题依然存在,表明现有方法难以有效抵消低质数据的负面影响。 该研究再次印证了AI领域的经典原则:“垃圾进,垃圾出”。澳大利亚西澳大学AI研究员梅维什·纳斯im(Mehwish Nasim)指出,即使在大模型时代,数据质量仍是决定模型表现的核心因素。随着社交媒体内容泛滥,如何筛选和净化训练数据,已成为提升AI可靠性的关键挑战。

相关链接

社交媒体滥用致AI聊天机器人“认知退化”引担忧 | 热门资讯 | HyperAI超神经