2ヶ月前

巨大な事前学習画像モデルは普遍的な表現を抽出できるでしょうか？

Lin, Yutong ; Liu, Ze ; Zhang, Zheng ; Hu, Han ; Zheng, Nanning ; Lin, Stephen ; Cao, Yue

要約

凍結された事前学習モデルは、転移学習における「事前学習→微調整」のパラダイムの有効な代替手段となっています。しかし、凍結モデルでは下流タスクに適応するためのパラメータが比較的少ないため、入力/出力形式や価値のある情報の種類が大きく異なるコンピュータビジョンにおいて問題となります。本論文では、物体検出、セマンティックセグメンテーション、ビデオアクション認識を含む多様で代表的なコンピュータビジョンタスクへの凍結された事前学習モデルの適用に関する研究を示します。この経験的分析を通じて、当研究は以下の問いに答えます：どの事前学習タスクがこの凍結設定に最も適合するか、凍結設定をどのようにしてさまざまな下流タスクに対してより柔軟にするか、そして大きなモデルサイズの効果についてです。さらに、30億パラメータ（SwinV2-G）を持つ巨大な凍結された事前学習モデルを使用した性能の上限を検討し、共有される1つの凍結ベースネットワークのみで主要ベンチマーク群での競争力のある性能を達成することを見出しました：COCO物体検出テストデベロップメントセットでの60.0ボックスmAPおよび52.2マスクmAP、ADE20Kセマンティックセグメンテーションバリデーションセットでの57.6 mIoU、Kinetics-400アクション認識での81.7%トップ1精度です。本研究により、事前学習画像モデルの凍結という有望な手法に対するさらなる注目を集めることを目指しています。