2ヶ月前
画像を外国語として:BEiTのすべての視覚および視覚言語タスクへの事前学習
Wenhui Wang; Hangbo Bao; Li Dong; Johan Bjorck; Zhiliang Peng; Qiang Liu; Kriti Aggarwal; Owais Khan Mohammed; Saksham Singhal; Subhojit Som; Furu Wei

要約
言語、ビジョン、およびマルチモーダル事前学習の大きな統合が進んでいます。本研究では、ビジョンとビジョン-言語タスクにおいて最先端の転移性能を達成する汎用的なマルチモーダル基盤モデルBEiT-3を紹介します。具体的には、バックボーンアーキテクチャ、事前学習タスク、モデルのスケーリングアップという3つの側面からこの大統合を推進しています。私たちは、深層融合とモダリティ固有のエンコーディングを可能にするモジュール式アーキテクチャを持つMultiway Transformers(多方向トランスフォーマー)を導入し、汎用的なモデリングを行います。共有バックボーンに基づいて、画像(Imglish)、テキスト(英語)、および画像-テキストペア(「並列文」)に対して一貫したマスク付き「言語」モデリングを行います。実験結果は、BEiT-3が物体検出(COCO)、セマンティックセグメンテーション(ADE20K)、画像分類(ImageNet)、視覚的推論(NLVR2)、視覚的質問応答(VQAv2)、画像キャプショニング(COCO)、およびクロスモーダル検索(Flickr30K, COCO)において最先端の性能を達成していることを示しています。