2ヶ月前

Grounded Language-Image Pre-training 言語画像事前学習

Li, Liunian Harold ; Zhang, Pengchuan ; Zhang, Haotian ; Yang, Jianwei ; Li, Chunyuan ; Zhong, Yiwu ; Wang, Lijuan ; Yuan, Lu ; Zhang, Lei ; Hwang, Jenq-Neng ; Chang, Kai-Wei ; Gao, Jianfeng
Grounded Language-Image Pre-training
言語画像事前学習
要約

本論文では、オブジェクトレベルの、言語に敏感な、そして意味豊かな視覚表現を学習するための基盤となる言語-画像事前学習(GLIP)モデルを提案します。GLIPは、オブジェクト検出とフレーズグラウンディングを統合して事前学習を行います。この統合により、以下の2つの利点がもたらされます:1) 検出データとグラウンディングデータの両方から学習できることで、両タスクの性能向上と良質なグラウンディングモデルの初期化が可能になります;2) 自己訓練手法によってグラウンディングボックスを生成することで、大量の画像-テキストペアを利用し、学習された表現が意味豊かになることが可能になります。実験では、GLIPを2700万件のグラウンディングデータ(うち300万件は人間による注釈付きデータ、残り2400万件はウェブから収集した画像-テキストペア)で事前学習しました。学習された表現は、様々なオブジェクトレベル認識タスクへの強力なゼロショットおよびファウショット転移性を示しています。1) COCOやLVIS(COCOの画像を見ずに事前学習した場合)での直接評価において、GLIPはそれぞれ49.8 APと26.9 APを達成し、多くの監督ベースラインを超える結果を得ました。2) COCOで微調整後、GLIPはvalセットで60.8 AP、test-devセットで61.5 APを達成し、従来の最先端(SoTA)を超える性能を発揮しました。3) 13種類の下流オブジェクト検出タスクへの転移においても、1ショット設定でのGLIPが完全に監督されたDynamic Headと匹敵する性能を示しました。コードはhttps://github.com/microsoft/GLIPにて公開されています。