2ヶ月前

MELTR: メタロスストランスフォーマーによるビデオ基礎モデルのファインチューニング学習

Dohwan Ko; Joonmyung Choi; Hyeong Kyu Choi; Kyoung-Woon On; Byungseok Roh; Hyunwoo J. Kim
MELTR: メタロスストランスフォーマーによるビデオ基礎モデルのファインチューニング学習
要約

基盤モデルは、様々な分野で優れた性能と汎化能力を示しています。しかし、基盤モデルに関する多くの研究が主に事前学習フェーズに焦点を当てているため、微調整には特定のタスクに特化した単一の損失関数を最小化する単純な戦略が採用されています。このような微調整手法は、ターゲットタスクに対して潜在的に有益な他の損失関数を十分に活用していません。そこで、私たちはMEta Loss TRansformer (MELTR)というプラグインモジュールを提案します。このモジュールは、補助学習を通じてターゲットタスクの学習を支援するために、さまざまな損失関数を自動的かつ非線形的に組み合わせます。補助学習を二段階最適化問題として定式化し、近似暗黙微分 (AID) をベースとした効率的な最適化アルゴリズムを提示します。評価のために、私たちのフレームワークを様々なビデオ基盤モデル(UniVL, Violet, および All-in-one)に適用し、4つの下流タスクすべてにおいて顕著な性能向上を示しました:テキストからビデオへの検索、ビデオ質問応答、ビデオキャプショニング、およびマルチモーダル感情分析です。私たちの定性的分析では、MELTRが個々の損失関数を適切に「変換」し、「溶かして」効果的な統合された損失へと結びつけることが確認されました。コードは https://github.com/mlvlab/MELTR で利用可能です。