16日前

LXMERTモデルの圧縮による視覚質問応答

Maryam Hashemi, Ghazaleh Mahmoudi, Sara Kodeiri, Hadi Sheikhi, Sauleh Eetemadi

要約

テキスト・画像ペアを用いた視覚言語タスクにおけるクロスモーダル表現学習のため、LXMERTをはじめとする大規模事前学習モデルが注目を集めている。ロットリーチケット仮説（lottery ticket hypothesis）によれば、自然言語処理（NLP）およびコンピュータビジョンモデルには、独立して学習可能であり、完全な性能に達することができる小さなサブネットワークが存在する。本研究では、この観察を統合し、VQAタスクにおけるLXMERTのファインチューニング時に、このようなトレーナブルなサブネットワークが存在するかどうかを検証する。さらに、精度の著しい低下を伴わずにどれだけの構造的削減（プルーニング）が可能かを評価するため、モデルサイズと性能のトレードオフを分析する。実験の結果、LXMERTはサイズを40%～60%まで削減しても、精度の低下は3%にとどまることを示した。