2달 전

OBELICS: 웹 규모의 오픈 필터링된 이미지-텍스트 교차 문서 데이터셋

Laurençon, Hugo ; Saulnier, Lucile ; Tronchon, Léo ; Bekman, Stas ; Singh, Amanpreet ; Lozhkov, Anton ; Wang, Thomas ; Karamcheti, Siddharth ; Rush, Alexander M. ; Kiela, Douwe ; Cord, Matthieu ; Sanh, Victor
OBELICS: 웹 규모의 오픈 필터링된 이미지-텍스트 교차 문서 데이터셋
초록

대규모 다중 모드 모델은 자연스러운 문서에서 이미지와 텍스트가 교차되는 데이터로 훈련되었을 때, 이미지-텍스트 쌍으로 훈련된 모델보다 다양한 다중 모드 벤치마크에서 우수한 성능을 보입니다. 그러나 이러한 모델을 훈련하는 데 사용된 데이터셋은 공개되지 않았으며, 수집 과정도 완전히 명시되지 않았습니다. 우리는 OBELICS 데이터셋을 소개합니다. 이는 Common Crawl에서 추출한 1억 4100만 개의 웹 페이지, 3억 5300만 개의 연관 이미지, 그리고 1150억 개의 텍스트 토큰으로 구성된 오픈 웹 스케일 필터링된 데이터셋입니다. 우리는 데이터셋 생성 과정을 설명하고, 포괄적인 필터링 규칙을 제시하며, 데이터셋의 내용에 대한 분석을 제공합니다. OBELICS의 타당성을 보이기 위해, 90억 및 800억 파라미터를 가진 시각 및 언어 모델인 IDEFICS를 훈련시키고, 다양한 다중 모드 벤치마크에서 경쟁력 있는 성능을 얻었습니다. 우리는 우리의 데이터셋, 모델 및 코드를 공개합니다.

OBELICS: 웹 규모의 오픈 필터링된 이미지-텍스트 교차 문서 데이터셋 | 최신 연구 논문 | HyperAI초신경