Command Palette
Search for a command to run...
Luis Wiedmann Orr Zohar Amir Mahla Xiaohan Wang Rui Li Thibaud Frere Leandro von Werra Aritra Roy Gosthipaty Andrés Marafioti

摘要
视觉-语言模型(VLMs)的发展受到公共数据集碎片化、不一致且存在污染等问题的严重制约。为此,我们提出了 FineVision,一个经过精心收集、整理与统一的语料库,包含2400万条样本,是目前规模最大的开放型同类资源。通过一种半自动化、人机协同的处理流程,我们将超过200个数据源整合为185个子集:自动化系统负责批量数据摄入与模式映射,而人工审校人员则对映射结果和输出样本进行审核与抽样检查,以验证标注信息的准确获取、格式的规范性、数据多样性以及安全性;发现的问题将触发针对性修复与重新处理。该工作流还对数据源内部及跨源数据实施严格的去重处理,并在66个公开基准测试集上进行去污染验证。此外,FineVision 还涵盖代理(agentic)与图形用户界面(GUI)任务,并采用统一的动作空间;审校人员对数据模式进行验证,并抽样检查任务轨迹,以确认其可执行性与真实性。在广泛评估套件中,基于 FineVision 训练的模型在性能上持续优于现有公开混合数据集上的训练结果,充分证明了数据规模、数据质量以及自动化与人工监督相平衡所带来的优势。我们已公开发布该语料库及数据整理工具,以推动以数据为中心的视觉-语言模型研究。