17日前

コンセプチュアル12M：長尾視覚的概念を認識するためのウェブスケール画像テキスト事前学習の限界に挑む

Soravit Changpinyo, Piyush Sharma, Nan Ding, Radu Soricut

要約

大規模な画像キャプション生成および視覚的質問応答（VQA）データセットの可用性は、視覚・言語統合事前学習（vision-and-language pre-training）における最近の成功に大きく貢献している。しかし、これらのデータセットは、元々のタスク（例：画像キャプション生成）に由来する過度に制限的な収集要件に基づいて構築されることが多く、結果としてデータセットの規模および多様性に制限が生じる。本研究では、Conceptual Captions 3M（CC3M）[Sharma et al. 2018]で用いられたデータ収集プロセスを緩和することで、視覚・言語事前学習データの限界をさらに押し広げる試みを行う。その結果、1200万件の画像-テキストペアを含む、視覚・言語事前学習を目的として設計された「Conceptual 12M（CC12M）」データセットを提案する。本研究では、CC3Mと比較して、CC12Mの性能を複数の下流タスクにおいて評価し、特に長尾視覚認識（long-tail visual recognition）に注目して分析を行う。その結果、視覚・言語タスクにおける事前学習データのスケーリングが明確な利点をもたらすことが示され、NOCAPSおよびConceptual Captionsの両ベンチマークにおいて、新たなSOTA（状態の最良）性能が達成された。