
要約
下流タスク向けに、タスクに依存しない事前学習済み深層モデルから知識を転移することは、コンピュータビジョン分野における重要な研究課題である。計算能力の向上に伴い、大規模なモデルアーキテクチャおよび膨大なデータ量を有するオープンソースの視覚言語事前学習モデルが登場している。本研究では、動画分類タスクにおける知識転移に焦点を当てる。従来の手法では、視覚分類用の線形分類器をランダムに初期化する一方で、事前学習モデルのテキストエンコーダーを下流の視覚認識タスクに活用するという可能性は十分に探求されてこなかった。本論文では、線形分類器の役割を見直し、事前学習モデルから得られる異なる種類の知識に置き換えるアプローチを提案する。特に、事前学習済み言語モデルを活用して、効率的な転移学習に適した優れた意味的ターゲットを生成する。実証的な実験により、本手法はモデル構造にほとんど変更を加えずに、動画分類の性能および学習速度の両方を向上させることを示した。本研究で提案するシンプルかつ効果的なチューニングパラダイムは、ゼロショット、フェイショット、一般認識といった多様な動画認識シナリオにおいて、最先端の性能と効率的な学習を達成した。特に、Kinetics-400データセットにおいて87.8%の最先端精度を達成し、5つの代表的な動画データセットにおいてゼロショットおよびフェイショット設定下で、従来手法に比べて20~50%の絶対的なトップ1精度の向上を実現した。コードおよびモデルは、https://github.com/whwu95/Text4Vis にて公開されている。