2ヶ月前

ゼロショット動画認識のための直交時間補間

Yan Zhu; Junbao Zhuo; Bin Ma; Jiajia Geng; Xiaoming Wei; Xiaolin Wei; Shuhui Wang
ゼロショット動画認識のための直交時間補間
要約

ゼロショットビデオ認識(ZSVR)は、モデルの学習過程で見られなかったビデオカテゴリを認識することを目指すタスクである。最近、大規模な画像-テキストペアで事前学習されたビジョン言語モデル(VLMs)が、ZSVRにおいて優れた転移性を示している。VLMsをビデオ領域に適用するためには、既存の手法では画像レベルのエンコーダーの後に追加的な時間学習モジュールを使用して、ビデオフレーム間の時間的関係を学習することが一般的である。しかし、未見のカテゴリからのビデオに対しては、空間-時間特徴を使用するモデルが、時間学習モジュールを取り除いて空間特徴のみを使用するモデルよりも著しく劣るという異常現象が観察される。私たちは、ビデオに対する不適切な時間モデリングがビデオの空間特徴を乱すことだと推測している。この仮説を検証するために、特徴因子分解(Feature Factorization)を提案し、ビデオの直交時間特徴を保持し、補間法を利用して洗練された空間-時間特徴を構築する。適切に洗練された空間-時間特徴を使用したモデルは、空間特徴のみを使用したモデルよりも優れた性能を発揮し、直交時間特徴がZSVRタスクに対して有効であることを確認している。したがって、訓練中により洗練された空間-時間ビデオ特徴を学習するために直交時間補間モジュール(Orthogonal Temporal Interpolation module)が設計され、さらに直交時間特徴の品質向上のためにマッチング損失(Matching Loss)が導入されている。私たちはVLMsに基づいて直交時間補間とマッチング損失を利用したZSVR用のモデルOTIを提案する。人気のあるビデオデータセット(Kinetics-600, UCF101, HMDB51など)におけるZSVR精度は、OTIが以前の最先端手法よりも明確に優れていることを示している。注:「Feature Factorization」、「Orthogonal Temporal Interpolation module」、「Matching Loss」などの専門用語については一般的な日本語訳を使用しました。「OTI」は「Orthogonal Temporal Interpolation」の略称として使用されています。

ゼロショット動画認識のための直交時間補間 | 最新論文 | HyperAI超神経