HyperAIHyperAI

Command Palette

Search for a command to run...

GPT-oss 揭秘 OpenAI 训练数据:哪些信息被意外曝光?

一篇发布于2025年9月19日的分析文章指出,OpenAI公开的GPT-oss模型权重揭示了其训练数据中存在大量来自成人网站的敏感内容,甚至暗示GPT-5曾训练于此类数据。 尽管OpenAI未明确披露训练数据来源,仅表示GPT-oss基于“包含万亿级token的纯文本数据集”,聚焦于STEM、编程与通用知识,但通过对模型嵌入矩阵的分析,研究人员发现了一些异常现象。使用o200k tokenizer的GPT-5系列模型中,存在一批L2范数异常高的非ASCII字符token,如“毛片免费观看”(意为“免费观看成人影片”)、“铁血网”(中国军事民族主义网站)、“北京赛车怎么”(北京赛车玩法)、“一本道高清无码”(成人网站名称)等。这些token在训练中被赋予了显著更高的权重,说明它们在训练过程中出现过,而非被忽略或降权。 进一步测试显示,当向GPT-5提问这些token含义时,模型能准确识别其为中文,并描述其与成人内容或博彩相关,尽管会用委婉措辞淡化敏感性,但并未拒绝回答。这表明这些字符串确实曾出现在训练数据中,属于“成员推断”(membership inference)的高置信度案例——即模型能“记住”某些特定输入,这在大型语言模型中本应极难实现。 研究人员还通过API自动化测试,对比GPT-5、GPT-oss及其他模型对50个高范数token的识别能力,发现多个成人或博彩相关token被正确识别,而其他未被识别的则未出现在训练数据中。进一步分析发现,这些被识别的token在GitHub上搜索结果较多,与垃圾代码库、内容过滤词表等存在关联,提示GitHub可能是部分训练数据的来源之一,尽管尚不能完全确认。 该研究还揭示,这些高范数token并非随机噪声,而是具有特定语义的“漏洞令牌”(glitch tokens),部分源自C语言函数名、日语论坛默认用户名、游戏模组文件扩展名等,其异常行为可被用于探测模型训练数据的边界。 文章结论认为,GPT-5和GPT-oss系列模型很可能在训练中接触过成人网站内容,且部分数据可能来自GitHub。这一发现暴露了开放权重模型在数据隐私与安全上的新风险,建议前沿AI实验室应从分词器中剔除罕见或敏感字符串,以降低数据泄露风险。

相关链接