16日前
LXMERTモデルの圧縮による視覚質問応答
Maryam Hashemi, Ghazaleh Mahmoudi, Sara Kodeiri, Hadi Sheikhi, Sauleh Eetemadi

要約
テキスト・画像ペアを用いた視覚言語タスクにおけるクロスモーダル表現学習のため、LXMERTをはじめとする大規模事前学習モデルが注目を集めている。ロットリーチケット仮説(lottery ticket hypothesis)によれば、自然言語処理(NLP)およびコンピュータビジョンモデルには、独立して学習可能であり、完全な性能に達することができる小さなサブネットワークが存在する。本研究では、この観察を統合し、VQAタスクにおけるLXMERTのファインチューニング時に、このようなトレーナブルなサブネットワークが存在するかどうかを検証する。さらに、精度の著しい低下を伴わずにどれだけの構造的削減(プルーニング)が可能かを評価するため、モデルサイズと性能のトレードオフを分析する。実験の結果、LXMERTはサイズを40%~60%まで削減しても、精度の低下は3%にとどまることを示した。