2ヶ月前

CTAP: 補完的な時系列アクション提案生成

Jiyang Gao; Kan Chen; Ram Nevatia
CTAP: 補完的な時系列アクション提案生成
要約

時系列アクション提案生成は重要なタスクであり、オブジェクト提案と同様に、時系列アクション提案はビデオ内においてアクションが存在する可能性が高い「クリップ」や時間間隔を捉えることを目指しています。従来の方法は、スライディングウィンドウランキングとアクション度スコアグループ化の2つのグループに分けることができます。スライディングウィンドウはビデオ内のすべてのセグメントを均一にカバーしますが、時間境界が不正確であるという問題があります。一方、アクション度スコアに基づく方法はより正確な境界を持つ可能性がありますが、アクション度スコアの品質が低い場合、一部の提案が省略される可能性があります。これらの2つの方法の補完的な特性に基づいて、我々は新しい補完型時系列アクション提案(Complementary Temporal Action Proposal: CTAP)ジェネレータを提案します。具体的には、スライディングウィンドウ提案に対してプロポーザルレベルのアクション度信頼性推定器(Proposal-level Actionness Trustworthiness Estimator: PATE)を適用し、アクション度スコアによって正しく検出できるかどうかを示す確率を生成します。高スコアを持つウィンドウを集積し、集積されたスライディングウィンドウとアクション度提案を時間畳み込みニューラルネットワークで処理して提案ランキングと境界調整を行います。CTAPはTHUMOS-14およびActivityNet 1.3データセットにおいて平均リコール(Average Recall: AR)で既存の最先端手法を大幅に上回っています。さらに、CTAPを既存のアクション検出器における提案生成手法として適用し、一貫した有意な改善を示しています。

CTAP: 補完的な時系列アクション提案生成 | 最新論文 | HyperAI超神経