4ヶ月前

マスク付き動作エンコーディングによる自己監督型ビデオ表現学習

Xinyu Sun; Peihao Chen; Liangwei Chen; Changhao Li; Thomas H. Li; Mingkui Tan; Chuang Gan
マスク付き動作エンコーディングによる自己監督型ビデオ表現学習
要約

ラベルのない動画から判別的な動画表現を学習することは、挑戦的であるが、動画分析において重要な課題である。最新の試みでは、マスクされた領域の外観コンテンツを予測することで表現モデルを学習することを目指している。しかし、単に外観コンテンツをマスキングして復元するだけでは、時間的な手がかりをモデル化するのに十分ではなく、外観コンテンツは単一のフレームから容易に再構築できるためである。この制約を克服するために、我々はマスクされた動き符号化(Masked Motion Encoding, MME)という新しい事前学習パラダイムを提案する。MMEでは、外観と動き情報を両方再構築することで時間的な手がかりを探求する。MMEにおいては、表現性能向上のために2つの重要な課題に焦点を当てる:1) 複数のフレームにわたる長期的な動きを適切に表現する方法;2) 疎にサンプリングされた動画から詳細な時間的手がかりを得る方法。人間が物体の位置変化や形状変化を追跡することで行動を認識できることに着想を得て、我々はこれらの2種類の変化を表す動き軌道をマスクされた領域で再構築することを提案する。さらに、疎な動画入力に対して、空間および時間の両次元で濃密な動き軌道を再構築させるようにモデルに強制する。我々のMMEパラダイムで事前学習したモデルは、長期的かつ詳細な動き情報を予測することが可能となる。コードは https://github.com/XinyuSun/MME で利用可能である。

マスク付き動作エンコーディングによる自己監督型ビデオ表現学習 | 論文 | HyperAI超神経