11일 전
LLaMA-3로 수십억 개의 웹 이미지를 다시 캡션화한다면 어떨까?
Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie

초록
웹 크롤링을 통해 수집한 이미지-텍스트 쌍은 본질적으로 노이즈가 많다. 기존 연구들은 이러한 쌍의 텍스트 설명을 의미적으로 정렬하고 풍부하게 다듬는 것이 다양한 시각-언어 작업, 특히 텍스트-이미지 생성에서 모델 훈련을 크게 향상시킬 수 있음을 보여주었다. 그러나 이 분야에서의 대규모 연구는 여전히 주로 폐쇄형 소스에 국한되어 있다. 본 논문은 강력하고 오픈소스인 LLaMA-3(=GPT-4 수준의 대규모 언어 모델)을 활용하여 이러한 공동체적 연구 격차를 메우는 것을 목표로 한다. 우리의 재설명(Recaptioning) 파이프라인은 간단하다. 먼저 LLaMA-3-8B 기반의 LLaVA-1.5 모델을 미세조정한 후, 이를 활용해 DataComp-1B 데이터셋에서 13억 개의 이미지에 대해 재설명을 수행한다. 실험 결과는 개선된 데이터셋인 Recap-DataComp-1B가 고급 시각-언어 모델 훈련에 큰 이점을 제공함을 입증한다. 분류형 모델(예: CLIP)의 경우, 다중 모달 검색 작업에서 제로샷 성능이 향상됨을 관찰하였으며, 생성형 모델(예: 텍스트-이미지 Diffusion Transformer)의 경우 사용자 텍스트 지시사항과의 일치도가 특히 복잡한 질의를 처리할 때 두드러진 개선을 보였다. 본 프로젝트 페이지는 다음과 같다: https://www.haqtu.me/Recap-Datacomp-1B/