HyperAIHyperAI

Command Palette

Search for a command to run...

Künstliche Intelligenz leidet unter „Brain Rot“ durch schlechte Daten – und kann sich nicht erholen

人工智能模型在持续接触低质量网络内容后,正面临类似人类“脑腐”的认知退化风险。这一现象由德克萨斯农工大学、德克萨斯大学奥斯汀分校与普渡大学联合研究团队在arXiv上发表的论文揭示。研究提出“LLM脑腐假说”,指出大型语言模型(LLM)在长期预训练中摄入大量碎片化、高互动但低语义质量的社交媒体内容,会导致推理能力、长文本理解与安全性等核心功能不可逆衰退。研究通过构建两个维度的垃圾数据集:M1(高互动度、短文本)与M2(低语义质量、吸睛式表达),从X平台100万条推文中抽样验证。实验使用Llama3 8B、Qwen系列等四款模型,测试其在推理、记忆、伦理规范与人格特质上的变化。结果显示,M1干预显著降低模型在ARC-Challenge与RULER-CWE任务中的得分,推理能力下降达17.7个百分点,且伴随安全风险上升与自恋倾向增强;M2影响相对温和,甚至轻微提升某些人格维度。剂量反应实验表明,随着垃圾数据比例上升,认知衰退呈渐进式恶化,体现“剂量效应”。深入分析发现,模型推理失败主要表现为“无思考”(占比84%)、逻辑跳跃与事实错误,且与文本热度密切相关——热度成为超越语义内容的新型认知威胁。尽管尝试采用自我反思与外部模型(GPT-4o-mini)纠错,以及指令微调与持续训练等手段进行修复,均未能恢复模型至原始性能水平。即使使用4.8倍于垃圾数据量的高质量指令数据,模型在关键指标上仍显著落后,表明脑腐效应已深度嵌入模型权重,难以逆转。研究强调,当前LLM训练依赖海量互联网数据的模式存在根本性隐患,亟需建立严格的数据筛选机制与质量控制流程,防止认知退化的累积性损害。未来需探索更高效的模型修复技术,如基于认知架构重构或对抗性清洗策略,以保障AI系统的可靠性与安全性。 业内专家指出,该研究首次系统揭示了数据质量对AI认知能力的深远影响,标志着AI健康评估进入新阶段。随着模型规模扩大与训练数据膨胀,单纯依赖“更多数据”已不可持续。行业应推动建立“可信数据供应链”,强化对训练数据来源与质量的透明度要求。此外,该发现对AI伦理、监管框架与产品设计提出警示:未经筛选的网络内容可能成为AI“认知污染”的源头,亟需在技术与制度层面协同应对。

Verwandte Links

Künstliche Intelligenz leidet unter „Brain Rot“ durch schlechte Daten – und kann sich nicht erholen | Aktuelle Beiträge | HyperAI