2ヶ月前

CDC: 畳み込み逆畳み込みネットワークを用いたトリミングされていない動画における時刻的なアクションの精密な局所化

Zheng Shou; Jonathan Chan; Alireza Zareian; Kazuyuki Miyazawa; Shih-Fu Chang
CDC: 畳み込み逆畳み込みネットワークを用いたトリミングされていない動画における時刻的なアクションの精密な局所化
要約

時間的な行動位置特定は重要な課題であり、同時に困難を伴っています。複数の行動インスタンスと複雑な背景コンテンツから構成される長い未編集ビデオが与えられた場合、我々はそれらの行動カテゴリを認識するだけでなく、各インスタンスの開始時刻と終了時刻を特定する必要があります。最先端の多くのシステムでは、事前に決定された境界を持つ提案セグメントを選択し、ランキング付けするためにセグメントレベルの分類器を使用しています。しかし、理想的なモデルはセグメントレベルを超えて、時間的に細かい粒度で密集した予測を行い、正確な時間的境界を決定すべきです。この目的のために、我々は3D ConvNets(3次元畳み込みニューラルネットワーク)の上にCDCフィルタを配置する新しいConvolutional-De-Convolutional (CDC) ネットワークを設計しました。3D ConvNetsは行動意味論の抽象化に効果的であることが示されていますが、入力データの時間的長さを短縮します。提案されたCDCフィルタは、必要な時間的なアップサンプリングと空間的なダウンサンプリング操作を同時に実行して、フレームレベルの粒度で行動を予測します。これは空間・時間における行動意味論と細かい粒度での時間的動態を同時モデリングすることに特徴があります。我々は効率的にエンドツーエンドでCDCネットワークを学習させました。我々のモデルは各フレームでの行動検出において優れた性能を達成するとともに、時間的境界の特定精度も大幅に向上させています。最後に、CDCネットワークは単一GPUサーバー上で1秒間に500フレーム処理できる非常に高い効率性を持っています。カメラレディ版の更新とソースコードのオンライン公開については近日中に実施予定です。

CDC: 畳み込み逆畳み込みネットワークを用いたトリミングされていない動画における時刻的なアクションの精密な局所化 | 最新論文 | HyperAI超神経