2ヶ月前
OST: 最適な空間時間記述子を用いた一般的ビデオ認識のためのテキスト知識の洗練
Tongjia Chen; Hongshan Yu; Zhengeng Yang; Zechuan Li; Wei Sun; Chen Chen

要約
視覚言語モデルの広範なビデオデータでの学習はリソース集約的なため、多くの研究が事前学習済みの画像言語モデルをビデオ領域に適応させることに焦点を当てています。主要なパイプラインでは、追加の時間的学習者を使用して視覚的な違いに対処することを提案していますが、ウェブスケールの説明的なナラティブと簡潔な行動カテゴリ名の間の大きな違いを見落としています。これにより、意味空間が不明瞭になり、パフォーマンスに制限が生じる可能性があります。本研究では、一般的なビデオ認識を促進するためにテキスト知識の洗練に重点を置きました。カテゴリ名の意味空間が不明瞭であるという課題に対処するため、大規模言語モデル(LLM)にプロンプトを与え、行動クラス名を時空間記述子(Spatio-Temporal Descriptors)に拡張することで、テキスト上の違いを橋渡しし、一般的な認識のための知識ベースとして機能させる方法を採用しました。さらに、異なるビデオインスタンスに対して最適な記述子を割り当てるために、最適記述子解法器(Optimal Descriptor Solver)を提案しました。この手法はフレームレベル表現と記述子間で最適なマッチングフローを求めることによってビデオ認識問題を解決します。ゼロショット、ファーソット、完全教師ありのビデオ認識における包括的な評価により、当手法の有効性が示されました。最良のモデルはKinetics-600において最先端のゼロショット精度75.1%を達成しました。