17日前

自己教師付き動画トランスフォーマー

Kanchana Ranasinghe, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, Michael Ryoo
自己教師付き動画トランスフォーマー
要約

本稿では、ラベルなし動画データを用いた動画変換器(Video Transformer)の自己教師学習手法を提案する。与えられた動画から、空間サイズやフレームレートを変化させた局所的・全体的な時空間ビューを生成する。本研究の自己教師学習目的は、同一動画を表す異なるビューの特徴量を一致させることにより、行動における時空間的変化に対して不変性を実現することにある。筆者らの知る限り、提案手法は自己教師学習動画変換器(Self-supervised Video Transformer: SVT)において、負例(negative samples)や専用のメモリバンクへの依存を緩和する初のアプローチである。さらに、変換器モデルの柔軟性を活かし、動的に調整された位置符号化(positional encoding)を用いることで、単一のアーキテクチャ内でスローファストな動画処理を実現するとともに、時空間次元に沿った長期的関係のモデリングも可能である。提案手法は、4つの行動認識ベンチマーク(Kinetics-400、UCF-101、HMDB-51、SSv2)において優れた性能を示し、小さなバッチサイズでも高速に収束する。コード:https://git.io/J1juJ

自己教師付き動画トランスフォーマー | 最新論文 | HyperAI超神経