Command Palette
Search for a command to run...
LXMERTモデルの圧縮による視覚質問応答
LXMERTモデルの圧縮による視覚質問応答
Maryam Hashemi Ghazaleh Mahmoudi Sara Kodeiri Hadi Sheikhi Sauleh Eetemadi
概要
テキスト・画像ペアを用いた視覚言語タスクにおけるクロスモーダル表現学習のため、LXMERTをはじめとする大規模事前学習モデルが注目を集めている。ロットリーチケット仮説(lottery ticket hypothesis)によれば、自然言語処理(NLP)およびコンピュータビジョンモデルには、独立して学習可能であり、完全な性能に達することができる小さなサブネットワークが存在する。本研究では、この観察を統合し、VQAタスクにおけるLXMERTのファインチューニング時に、このようなトレーナブルなサブネットワークが存在するかどうかを検証する。さらに、精度の著しい低下を伴わずにどれだけの構造的削減(プルーニング)が可能かを評価するため、モデルサイズと性能のトレードオフを分析する。実験の結果、LXMERTはサイズを40%~60%まで削減しても、精度の低下は3%にとどまることを示した。