HyperAIHyperAI

Command Palette

Search for a command to run...

マスク付き動作エンコーディングによる自己監督型ビデオ表現学習

Xinyu Sun extsuperscript1,2*, Peihao Chen extsuperscript1*, Liangwei Chen extsuperscript1 Changhao Li extsuperscript1 Thomas H. Li extsuperscript6 Mingkui Tan extsuperscript1,5† Chuang Gan extsuperscript3,4

概要

ラベルのない動画から判別的な動画表現を学習することは、挑戦的であるが、動画分析において重要な課題である。最新の試みでは、マスクされた領域の外観コンテンツを予測することで表現モデルを学習することを目指している。しかし、単に外観コンテンツをマスキングして復元するだけでは、時間的な手がかりをモデル化するのに十分ではなく、外観コンテンツは単一のフレームから容易に再構築できるためである。この制約を克服するために、我々はマスクされた動き符号化(Masked Motion Encoding, MME)という新しい事前学習パラダイムを提案する。MMEでは、外観と動き情報を両方再構築することで時間的な手がかりを探求する。MMEにおいては、表現性能向上のために2つの重要な課題に焦点を当てる:1) 複数のフレームにわたる長期的な動きを適切に表現する方法;2) 疎にサンプリングされた動画から詳細な時間的手がかりを得る方法。人間が物体の位置変化や形状変化を追跡することで行動を認識できることに着想を得て、我々はこれらの2種類の変化を表す動き軌道をマスクされた領域で再構築することを提案する。さらに、疎な動画入力に対して、空間および時間の両次元で濃密な動き軌道を再構築させるようにモデルに強制する。我々のMMEパラダイムで事前学習したモデルは、長期的かつ詳細な動き情報を予測することが可能となる。コードは https://github.com/XinyuSun/MME で利用可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています