16日前
視覚・言語表現学習のための大規模な敵対的訓練
Zhe Gan, Yen-Chun Chen, Linjie Li, Chen Zhu, Yu Cheng, Jingjing Liu

要約
本稿では、視覚・言語(V+L)表現学習における大規模な敵対的訓練の初めての試みとして、VILLAを提案する。VILLAは以下の2段階の訓練プロセスから構成される:(i) タスクに依存しない敵対的事前学習;および (ii) タスク特化型の敵対的微調整。従来の画像ピクセルやテキストトークンに敵対的摂動を加える手法とは異なり、我々は各モダリティの埋め込み空間において敵対的訓練を実施することを提案する。大規模な訓練を可能にするために、「フリー」敵対的訓練戦略を採用し、さらにKL発散に基づく正則化を組み合わせることで、埋め込み空間におけるより高い不変性を促進する。本手法は現在の最高性能を発揮するV+Lモデルに適用され、視覚質問応答(Visual Question Answering)、視覚的共通認識推論(Visual Commonsense Reasoning)、画像-テキスト検索(Image-Text Retrieval)、参照表現理解(Referring Expression Comprehension)、視覚的含意(Visual Entailment)、NLVR2など、幅広いタスクにおいて、新たなSOTA(最良の成果)を達成した。