WIT:マルチモーダル・マルチリンガル機械学習のためのウィキペディアベースの画像テキストデータセット

深層表現学習および事前学習技術による画期的な進展により、自然言語処理(NLP)、情報検索(IR)、視覚認識などの下流タスクにおいて大幅な性能向上が達成されている。マルチモーダルモデリング技術は、画像とテキストのモダリティ間で補完的な情報を学習するため、高品質な視覚言語データセットを活用することを目指している。本論文では、マルチモーダルかつマルチリンガルな学習をより効果的に促進するため、Wikipediaを基盤とする画像-テキスト(WIT)データセット(https://github.com/google-research-datasets/wit)を紹介する。WITは、108か国語のWikipediaに含まれる3760万件のエンティティ豊富な画像-テキスト例から構成されており、そのうち1150万件がユニークな画像である。この規模の大きさにより、WITは画像-テキスト検索などの下流タスクに応用した際のマルチモーダルモデルの事前学習データセットとして活用可能であることが示された。WITには以下の4つの主な特徴と独自性がある。第一に、本データセットは、公開時点での画像-テキスト例の数において、従来のデータセットを3倍以上上回る最大規模を誇る。第二に、WITは世界初の大規模マルチリンガルデータセットとして、100種類以上の言語をカバーしており、各言語に少なくとも1万2千件以上のサンプルが含まれており、多くの画像に対して異言語テキストを提供している。第三に、従来のデータセットがカバーする範囲に比べ、より多様な概念および現実世界の実体を反映している。最後に、WITは実世界の課題を厳しく反映した非常に挑戦的なテストセットを提供しており、画像-テキスト検索タスクを具体例として実証的に示している。