苹果基础模型构建揭秘:数据来源与人工监督的关键作用
苹果在构建其两大基础模型的过程中,高度重视数据来源和人工监督。这些模型用于支撑苹果设备上的多种功能,强调隐私、责任与效率。与部分竞争对手通过大规模抓取互联网数据不同,苹果更注重数据的合规性和质量。他们通过自有的网络爬虫“Applebot”收集数据,严格遵守网站的robots.txt协议,允许内容发布者选择是否参与AI训练,保障了内容提供者的控制权。 在数据处理方面,苹果采用先进的技术,如无头渲染,以准确提取动态网页内容,包括JavaScript生成的信息。同时,他们将大模型用于特定领域文档的提取,效果优于传统规则方法。在过滤过程中,苹果使用基于模型的信号,根据不同语言调整策略,保留有价值的信息,同时过滤掉不当内容、敏感信息和个人身份数据。 苹果不使用用户私有数据或交互记录进行训练,而是通过购买出版商数据、整理开源数据集以及生成高质量合成数据来构建模型。在多模态训练中,他们收集了超过100亿对图像与文本数据,1.75亿份混合文档,以及70亿条合成描述。 在模型优化阶段,苹果结合人工监督与自动化技术,通过监督微调(SFT)和人类反馈强化学习(RLHF)提升模型表现。人工标注人员参与多个领域任务,如问答、推理和视觉识别,确保模型的自然性和准确性。此外,他们通过AI代理工具进行多轮交互数据的标注与修正,进一步提升模型的实用性。 苹果的模型设计注重效率,其本地设备版本参数约为30亿,性能在多个基准测试中超越了如Gemma-2–2B等模型。整个训练过程采用异步分布式架构,提升了计算效率。用户反馈和红队测试则用于模型上线后的持续优化。 苹果在数据伦理和人工监督上的做法不仅是技术选择,更是其价值观的体现。通过保护隐私和减少偏见,他们推动了更负责任的AI发展,可能引领行业在数据透明和伦理方面的变革。