11 天前
面向视觉微调的高质量数据游戏化众包
Shashank Yadav, Rohan Tomar, Garvit Jain, Chirag Ahooja, Shubham Chaudhary, Charles Elkan

摘要
本文提出了一种名为“游戏化对抗性提示”(Gamified Adversarial Prompting, GAP)的框架,旨在通过众包方式收集高质量数据,用于大型多模态模型的视觉指令微调。GAP将数据收集过程转化为一种富有吸引力的游戏形式,激励参与者提供细粒度且具有挑战性的问答对,以精准填补模型知识体系中的空白。本研究的主要贡献包括:(1)一种直接针对模型知识薄弱环节的人类问答对采集方法;(2)一种评估并奖励玩家的机制,有效激励其提交高质量的内容;(3)一个可扩展的游戏化平台,仅用数周时间便成功从超过5万名参与者中收集到所需数据。GAP的实现显著提升了小型多模态模型MiniCPM-Llama3-V-2.5-8B的性能,在我们的数据集上,其GPT评分从0.147提升至0.477,已接近大型模型GPT-4V所设定的基准水平。此外,我们进一步验证了基于MiniCPM-Llama3-V-2.5-8B生成的数据在其他基准测试中的泛化能力,展现出跨模型的增益效果:相同的数据集同样显著提升了QWEN2-VL-2B与QWEN2-VL-7B在多个基准测试上的表现,证明了该数据具有良好的迁移性和普适性。