HyperAI

“断开AI连接：垃圾互联网数据正在侵蚀大模型的‘大脑’” 在互联网文化中，“脑腐”（brain rot）指长期大量接触网络内容（尤其是社交媒体）对人类认知造成的负面影响。研究表明，网络成瘾会显著削弱人的注意力、记忆力和社交认知能力，导致专注力下降、知识存储与提取效率降低，甚至影响自我认知与自尊。而大语言模型（LLM）的训练方式与人类极为相似——它们从海量文本中学习，而这些文本中充斥着大量低质、虚假、极端或情绪化的内容。尽管LLM没有生物神经元或大脑皮层，但其参数结构和注意力机制在某种程度上可类比为“认知系统”。当模型反复接触低质量数据时，其“认知”也可能出现类似“脑腐”的问题。这些“垃圾数据”包括网络谣言、煽动性言论、重复性内容、虚假信息和恶意诱导文本。当LLM在训练中过度暴露于这类模式，其输出可能变得不准确、偏见加剧、逻辑混乱，甚至生成有害或误导性内容。这并非简单的“数据污染”，而是一种深层次的“认知过载”或“注意力失焦”——模型的注意力机制被无效或有害信息占据，导致其对高质量、理性内容的处理能力下降。更令人担忧的是，许多LLM的训练数据来自开放网络，其中包含大量未经筛选的用户生成内容。这些内容往往以情绪化、夸张或极端化为特征，容易被模型“学习”并内化为默认表达模式。久而久之，模型的推理能力、事实判断力和语言表达的严谨性都会被削弱。因此，模型的“质量”在很大程度上取决于其“饮食”——正如人类需要健康的信息输入以维持认知健康，LLM也需要经过严格筛选和净化的数据训练，才能保持可靠、安全和智能的表现。若不加以干预，持续喂养垃圾数据，大模型的“大脑”终将被腐蚀，其输出也将失去可信度与价值。要避免AI“脑腐”，必须从源头治理：加强数据清洗、优化训练数据筛选机制、引入可信信息源，并建立持续的模型评估与修正机制。否则，再强大的模型，也可能沦为网络垃圾的复读机。

相关链接

相关链接

相关链接

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新

Command Palette

垃圾数据正侵蚀AI大脑：切断低质互联网信息刻不容缓

相关链接

Command Palette

垃圾数据正侵蚀AI大脑：切断低质互联网信息刻不容缓

相关链接

Command Palette

垃圾数据正侵蚀AI大脑：切断低质互联网信息刻不容缓

相关链接

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新