2ヶ月前
時間的コンテキストネットワークによるビデオ中の活動局所化
Xiyang Dai; Bharat Singh; Guyue Zhang; Larry S. Davis; Yan Qiu Chen

要約
私たちは、人間の活動の正確な時間的局所化を実現するためのTemporal Context Network(TCN)を提案します。Faster-RCNNアーキテクチャと同様に、ビデオ内では複数の時間的スケールにわたる等間隔で提案が配置されます。これらの提案をランキングするために新しい表現手法を提案します。セグメント内の特徴量だけをプーリングするだけでは活動境界を予測するのに十分ではないため、提案の周囲のコンテキストを明示的に捉える表現手法を作成し、ランキングに使用します。各提案内の時間的セグメントに対して、一対のスケールで均一にサンプリングされた特徴量が時間的畳み込みニューラルネットワークに入力され、分類されます。提案のランキング後には非最大値抑制が適用され、分類が行われて最終的な検出結果が得られます。TCNはActivityNetデータセットおよびTHUMOS14データセットにおいて最先端の方法を上回る性能を示しています。