HyperAIHyperAI

Command Palette

Search for a command to run...

巨大な事前学習画像モデルは普遍的な表現を抽出できるでしょうか?

Yutong Lin Ze Liu Zheng Zhang Han Hu Nanning Zheng Stephen Lin Yue Cao

概要

凍結された事前学習モデルは、転移学習における「事前学習→微調整」のパラダイムの有効な代替手段となっています。しかし、凍結モデルでは下流タスクに適応するためのパラメータが比較的少ないため、入力/出力形式や価値のある情報の種類が大きく異なるコンピュータビジョンにおいて問題となります。本論文では、物体検出、セマンティックセグメンテーション、ビデオアクション認識を含む多様で代表的なコンピュータビジョンタスクへの凍結された事前学習モデルの適用に関する研究を示します。この経験的分析を通じて、当研究は以下の問いに答えます:どの事前学習タスクがこの凍結設定に最も適合するか、凍結設定をどのようにしてさまざまな下流タスクに対してより柔軟にするか、そして大きなモデルサイズの効果についてです。さらに、30億パラメータ(SwinV2-G)を持つ巨大な凍結された事前学習モデルを使用した性能の上限を検討し、共有される1つの凍結ベースネットワークのみで主要ベンチマーク群での競争力のある性能を達成することを見出しました:COCO物体検出テストデベロップメントセットでの60.0ボックスmAPおよび52.2マスクmAP、ADE20Kセマンティックセグメンテーションバリデーションセットでの57.6 mIoU、Kinetics-400アクション認識での81.7%トップ1精度です。本研究により、事前学習画像モデルの凍結という有望な手法に対するさらなる注目を集めることを目指しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています