谷歌新方案破解AI数据短缺难题
人工智能正面临一场“数据荒”——训练大模型所需的数据正被快速消耗,而新生成的可用数据却跟不上节奏。为应对这一挑战,谷歌DeepMind的研究团队提出了一项名为“生成式数据精炼”(Generative Data Refinement, GDR)的新方法,或将成为突破数据瓶颈的关键。 当前,大型语言模型依赖海量文本数据进行训练,这些数据主要来自网页、书籍等公开来源。然而,大量原始数据因包含敏感信息(如身份证号、电话号码)、错误事实或过时内容而被AI实验室直接丢弃。研究人员指出,哪怕一段文档中仅有一行包含个人信息,整篇内容也可能被废弃,造成大量有价值信息的浪费。 GDR技术的核心思路是:利用预训练的生成式AI模型,自动识别并“净化”这些被标记为不可用的数据,移除或替换敏感或错误信息,同时保留其余有效内容。例如,一段包含某人社保号码的文本,GDR可将其替换为占位符,保留其余有用信息。研究人员还以“新任CEO是……”这类易过时的表述为例,说明系统可智能忽略此类内容。 该方法在测试中表现优异。研究团队对超过一百万行代码进行了人工标注,并与GDR处理结果对比,发现其效果远超现有行业方案。与目前流行的“合成数据”(由AI生成的训练数据)相比,GDR不仅避免了因合成数据质量下降导致的“模型坍塌”风险,还能生成更真实、更高质量的训练数据。 尽管该论文发表于今年,但撰写时间早于一年,且尚未经过同行评审。研究团队成员Minqi Jiang已离职加入Meta,他表示,目前许多AI实验室都在浪费大量潜在可用数据。GDR不仅适用于文本和代码,未来还可拓展至视频、音频等多模态数据。尽管视频数据生成速度极快,但其处理复杂度更高,仍有待深入探索。 研究团队认为,GDR有望大幅拓展AI可用数据的边界,缓解未来几年可能出现的“数据枯竭”危机。随着人类生成文本总量预计在2026至2032年间被AI耗尽,这类技术创新显得尤为关键。
