13 天前
如果我们用LLaMA-3为数十亿张网络图像重新生成描述文本,会怎样?
Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie

摘要
网络爬取的图像-文本配对数据本身具有较高的噪声。先前的研究表明,对这些配对数据进行语义对齐与文本描述增强,能够显著提升模型在多种视觉-语言任务中的训练效果,尤其是在文本到图像生成任务中表现尤为突出。然而,该领域的大型研究工作目前仍主要局限于闭源体系。本文旨在推动这一领域的开放社区协作,利用性能强大且开源的LLaMA-3(达到GPT-4水平的大型语言模型)作为基础。我们的重描述(recaptioning)流程简洁高效:首先,基于LLaMA-3-8B的LLaVA-1.5模型进行微调,随后使用该模型对DataComp-1B数据集中的13亿张图像进行重描述。实验结果证实,经增强后的数据集Recap-DataComp-1B在训练先进视觉-语言模型方面具有显著优势。对于判别式模型(如CLIP),我们在跨模态检索任务中观察到零样本性能的明显提升;对于生成式模型(如文本到图像的扩散变换器,Diffusion Transformers),生成图像在与用户文本指令的对齐程度上实现显著改进,尤其在理解并执行复杂查询方面表现更佳。项目主页详见:https://www.haqtu.me/Recap-Datacomp-1B/