2ヶ月前

動画表現学習による密集予測符号化

Tengda Han; Weidi Xie; Andrew Zisserman

要約

本論文の目的は、ビデオから人間の行動認識に適した時空間埋め込みを自己監督学習することである。我々は以下の3つの貢献を行う：第一に、ビデオにおける自己監督表現学習のためのDense Predictive Coding（DPC）フレームワークを導入する。これは、未来の表現を繰り返し予測することで時空間ブロックの密集符号化を学習する；第二に、時間的なコンテキストが段階的に減少する中でより遠い未来を予測するカリキュラムトレーニングスキームを提案する。これによりモデルはゆっくりと変化する時空間信号のみを符号化することが促され、結果として意味的な表現が得られる；第三に、まずKinetics-400データセット上で自己監督学習によってDPCモデルを訓練し、次いで下流タスクである行動認識に対してその表現を微調整することでアプローチの評価を行う。単一ストリーム（RGBのみ）において、DPC事前学習表現はUCF101（75.7% 上位1位精度）およびHMDB51（35.7% 上位1位精度）で最先端の自己監督性能を達成しており、これまでのすべての学習手法を大幅に上回り、ImageNetで事前学習されたベースラインに近い性能を示している。