2ヶ月前
OBELICS: ウェブスケールのオープンフィルターデータセットにおける交互配置の画像・テキスト文書
Laurençon, Hugo ; Saulnier, Lucile ; Tronchon, Léo ; Bekman, Stas ; Singh, Amanpreet ; Lozhkov, Anton ; Wang, Thomas ; Karamcheti, Siddharth ; Rush, Alexander M. ; Kiela, Douwe ; Cord, Matthieu ; Sanh, Victor

要約
大規模マルチモーダルモデルが、画像とテキストが交互に配置された自然なドキュメントで学習すると、画像-テキストペアで学習したモデルを上回る性能を示します。しかし、これらのモデルの学習に使用されたデータセットは公開されておらず、収集プロセスも完全には明確にされていません。本稿では、OBELICSデータセットを紹介します。これは、Common Crawlから抽出された1億4100万ページのウェブページ、関連する3億5300万枚の画像、および1150億のテキストトークンから構成されるオープンなウェブスケールのフィルタリング済みデータセットです。データセット作成プロセスについて説明し、包括的なフィルタリングルールを提示し、データセットの内容分析を行います。OBELICSの有効性を示すために、90億パラメータと800億パラメータを持つビジョンおよび言語モデルIDEFICSを学習させました。異なるマルチモーダルベンチマークにおいて競争力のある性能を得ることができました。当社はデータセット、モデルおよびコードを公開しています。