2ヶ月前

ImageBERT: 大規模弱教師付き画像-テキストデータを用いたクロスモーダル事前学習

Di Qi; Lin Su; Jia Song; Edward Cui; Taroon Bharti; Arun Sacheti
ImageBERT: 大規模弱教師付き画像-テキストデータを用いたクロスモーダル事前学習
要約

本論文では、画像とテキストの合同埋め込みを行う新しいビジョン言語事前学習モデル -- ImageBERT -- を紹介します。当該モデルは、異なるモダリティを入力として取り扱い、それらの関係をモデル化するTransformerベースのモデルです。モデルは、マスクされた言語モデリング (MLM)、マスクされたオブジェクト分類 (MOC)、マスクされた領域特徴回帰 (MRFR)、および画像テキストマッチング (ITM) の4つのタスクを同時に事前学習します。さらに事前学習の品質を向上させるため、Webから大規模な弱教師あり画像テキスト (LAIT) データセットを収集しました。まずこのデータセットでモデルを事前学習し、次にConceptual CaptionsとSBU Captionsで二段階目の事前学習を行いました。実験結果から、多段階的事前学習戦略が単一段階の事前学習よりも優れていることが示されました。また、当該ImageBERTモデルを画像検索およびテキスト検索タスクに対して微調整および評価した結果、MSCOCOおよびFlickr30kデータセットにおいて新たな最先端の成果を得ました。

ImageBERT: 大規模弱教師付き画像-テキストデータを用いたクロスモーダル事前学習 | 最新論文 | HyperAI超神経