16日前

LXMERTモデルの圧縮による視覚質問応答

Maryam Hashemi, Ghazaleh Mahmoudi, Sara Kodeiri, Hadi Sheikhi, Sauleh Eetemadi
LXMERTモデルの圧縮による視覚質問応答
要約

テキスト・画像ペアを用いた視覚言語タスクにおけるクロスモーダル表現学習のため、LXMERTをはじめとする大規模事前学習モデルが注目を集めている。ロットリーチケット仮説(lottery ticket hypothesis)によれば、自然言語処理(NLP)およびコンピュータビジョンモデルには、独立して学習可能であり、完全な性能に達することができる小さなサブネットワークが存在する。本研究では、この観察を統合し、VQAタスクにおけるLXMERTのファインチューニング時に、このようなトレーナブルなサブネットワークが存在するかどうかを検証する。さらに、精度の著しい低下を伴わずにどれだけの構造的削減(プルーニング)が可能かを評価するため、モデルサイズと性能のトレードオフを分析する。実験の結果、LXMERTはサイズを40%~60%まで削減しても、精度の低下は3%にとどまることを示した。

LXMERTモデルの圧縮による視覚質問応答 | 最新論文 | HyperAI超神経