HyperAI超神经

一篇发布于2025年9月19日的分析文章指出，OpenAI公开的GPT-oss模型权重揭示了其训练数据中存在大量来自成人网站的敏感内容，甚至暗示GPT-5曾训练于此类数据。尽管OpenAI未明确披露训练数据来源，仅表示GPT-oss基于“包含万亿级token的纯文本数据集”，聚焦于STEM、编程与通用知识，但通过对模型嵌入矩阵的分析，研究人员发现了一些异常现象。使用o200k tokenizer的GPT-5系列模型中，存在一批L2范数异常高的非ASCII字符token，如“毛片免费观看”（意为“免费观看成人影片”）、“铁血网”（中国军事民族主义网站）、“北京赛车怎么”（北京赛车玩法）、“一本道高清无码”（成人网站名称）等。这些token在训练中被赋予了显著更高的权重，说明它们在训练过程中出现过，而非被忽略或降权。进一步测试显示，当向GPT-5提问这些token含义时，模型能准确识别其为中文，并描述其与成人内容或博彩相关，尽管会用委婉措辞淡化敏感性，但并未拒绝回答。这表明这些字符串确实曾出现在训练数据中，属于“成员推断”（membership inference）的高置信度案例——即模型能“记住”某些特定输入，这在大型语言模型中本应极难实现。研究人员还通过API自动化测试，对比GPT-5、GPT-oss及其他模型对50个高范数token的识别能力，发现多个成人或博彩相关token被正确识别，而其他未被识别的则未出现在训练数据中。进一步分析发现，这些被识别的token在GitHub上搜索结果较多，与垃圾代码库、内容过滤词表等存在关联，提示GitHub可能是部分训练数据的来源之一，尽管尚不能完全确认。该研究还揭示，这些高范数token并非随机噪声，而是具有特定语义的“漏洞令牌”（glitch tokens），部分源自C语言函数名、日语论坛默认用户名、游戏模组文件扩展名等，其异常行为可被用于探测模型训练数据的边界。文章结论认为，GPT-5和GPT-oss系列模型很可能在训练中接触过成人网站内容，且部分数据可能来自GitHub。这一发现暴露了开放权重模型在数据隐私与安全上的新风险，建议前沿AI实验室应从分词器中剔除罕见或敏感字符串，以降低数据泄露风险。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

GPT-oss 揭秘 OpenAI 训练数据：哪些信息被意外曝光？

相关链接

Command Palette

GPT-oss 揭秘 OpenAI 训练数据：哪些信息被意外曝光？

相关链接

Command Palette

GPT-oss 揭秘 OpenAI 训练数据：哪些信息被意外曝光？

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟