16日前
LLaMA-3で数十億のウェブ画像を再キャプション化するとどうなるか?
Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie

要約
Webから収集された画像-テキストペアは本質的にノイズを含んでいます。これまでの研究では、これらのペアのテキスト記述を意味的に整合させ、豊かにすることで、視覚言語タスク(特にテキストから画像を生成するタスク)におけるモデルの学習効果が顕著に向上することを示しています。しかし、この分野における大規模な調査は依然として主に閉鎖型のものに留まっています。本論文では、GPT-4レベルの大規模言語モデル(LLM)であるオープンソースで強力なLLaMA-3を活用し、こうしたコミュニティの取り組みを補完することを目的としています。我々の再記述パイプラインは単純です。まず、LLaMA-3-8Bを搭載したLLaVA-1.5をファインチューニングし、そのモデルを用いてDataComp-1Bデータセットから13億枚の画像を再記述します。実証実験の結果、この強化されたデータセット「Recap-DataComp-1B」が、高度な視覚言語モデルの学習に大きな利点をもたらすことが確認されました。分類モデル(例:CLIP)では、マルチモーダル検索タスクにおけるゼロショット性能が向上することが観察されました。生成モデル(例:テキストから画像を生成するDiffusion Transformer)においては、ユーザーのテキスト指示との整合性が著しく向上し、特に複雑なクエリに対しても正確に応答する能力が顕著に改善されました。本プロジェクトのページは以下の通りです:https://www.haqtu.me/Recap-Datacomp-1B/