2ヶ月前

大規模から小規模へ:主幹部での融合を用いた視覚言語事前学習

Dou, Zi-Yi ; Kamath, Aishwarya ; Gan, Zhe ; Zhang, Pengchuan ; Wang, Jianfeng ; Li, Linjie ; Liu, Zicheng ; Liu, Ce ; LeCun, Yann ; Peng, Nanyun ; Gao, Jianfeng ; Wang, Lijuan
大規模から小規模へ:主幹部での融合を用いた視覚言語事前学習
要約

Vision-language (VL) 事前学習は最近、大きな注目を集めています。しかし、既存の大部分のエンドツーエンドの事前学習アプローチは、画像とテキストの高次理解をテストする画像-テキスト検索、視覚的な質問応答 (VQA)、画像キャプション生成などの VL タスクにのみ対処することか、フレーズの位置特定や物体検出などの領域レベルの理解にのみ焦点を当てる傾向があります。本稿では、これらの両方のタイプのタスクをシームレスに対処できる新しい VL モデルアーキテクチャである FIBER (Fusion-In-the-Backbone-based transformER) を提案します。従来のように単一モーダルバックボーンの後に専用のトランスフォーマー層を設けて融合を行うのではなく、FIBER はクロスアテンションを画像とテキストのバックボーンに挿入することで、マルチモーダル融合をモデル内部深くまで推進し、メモリ効率と性能向上につながります。さらに、過去の研究が画像-テキストデータまたはボックスレベルのアノテーションを持つ詳細データでのみ事前学習される一方で、我々はこれらの両方のデータを効率的に利用する二段階的事前学習戦略を提示します:(i) 画像-テキストデータに基づく粗粒度的事前学習;(ii) 画像-テキスト-ボックスデータに基づく細粒度的事前学習。我々は VQA, 画像キャプション生成, 検索からフレーズ位置特定, 参照表現理解, 物体検出までの広範な VL タスクに対して包括的な実験を行いました。深層マルチモーダル融合と二段階的事前学習を使用することで、FIBER はすべてのタスクにおいて強力なベースラインを超える一貫した性能向上を提供し、しばしばより大量のデータを使用する方法よりも優れた結果を示しています。コードは https://github.com/microsoft/FIBER で公開されています。

大規模から小規模へ:主幹部での融合を用いた視覚言語事前学習 | 最新論文 | HyperAI超神経