17日前

画像キャプションのための視覚言語事前学習のスケーリングアップ

Xiaowei Hu, Zhe Gan, Jianfeng Wang, Zhengyuan Yang, Zicheng Liu, Yumao Lu, Lijuan Wang
画像キャプションのための視覚言語事前学習のスケーリングアップ
要約

近年、視覚言語事前学習(VLP)に基づく画像キャプション生成タスクにおいて、顕著な性能向上が見られてきた。この進展において、スケーリングの重要性が広く認識されている。しかし、既存の大多数の研究は、約400万枚の画像上で中程度のサイズ(例:12層または24層)のTransformerモデルを事前学習するにとどまっている。本論文では、大規模画像キャプション生成モデル「LEMON(LargE-scale iMage captiONer)」を提示し、画像キャプションにおけるVLPのスケーリング特性について、初めての実証的研究を実施する。参照モデルとして、画像特徴抽出器とTransformerモデルから構成される最先端のVinVLモデルを採用し、Transformerのサイズを大きくも小さくもスケーリングし、モデルパラメータ数を1300万から6億7500万にまで変化させた。データ面では、画像のalt属性に基づいて自動収集された最大2億枚の画像-テキストペア(ALT200Mと命名)を用いた実験を実施した。広範な分析により、モデルサイズおよび事前学習データサイズの増加に伴う性能の変化傾向を明確に特徴づけた。また、特に大規模でノイズを含むデータでの学習に向けた異なる学習手法(training recipes)を比較検討した。その結果、LEMONはCOCO Caption、nocaps、Conceptual Captionsといった主要な画像キャプションベンチマークにおいて、新たなSOTA(State-of-the-Art)を達成した。さらに、ゼロショット設定下でも、長尾分布の視覚的概念を含むキャプションを生成可能であることを示した。