2ヶ月前

境界ノイズ除去によるビデオ活動局所化

Mengmeng Xu; Mattia Soldan; Jialin Gao; Shuming Liu; Juan-Manuel Pérez-Rúa; Bernard Ghanem
境界ノイズ除去によるビデオ活動局所化
要約

ビデオ活動局所化は、長時間の未編集ビデオにおける意味的内容を理解し、関心のある行動を検索することを目指しています。検出された行動とその開始位置および終了位置は、ハイライト生成や時間的な行動検出などに利用できます。しかし、活動の正確な境界位置を学習することは非常に困難です。なぜなら、時間的な活動は連続的であり、行動間には明確な切り替えがしばしば存在しないからです。さらに、イベントの開始と終了の定義は主観的であるため、モデルを混乱させる可能性があります。この境界の曖昧さを軽減するために、我々はビデオ活動局所化問題をノイズ除去の視点から研究することを提案します。具体的には、ノイズ除去型エンコーダー-デコーダーモデルであるDenoiseLoc(ノイズ除去局所化)を提案します。訓練中には、制御されたノイズスケールを使用して正解データから一連の行動範囲がランダムに生成されます。その後、境界ノイズ除去によってこの過程を逆転させることで、局所化器が精密な境界を持つ活動を予測し、収束速度が向上することが期待されます。実験結果は、DenoiseLocが複数のビデオ活動理解タスクにおいて進歩していることを示しています。例えば、QV-Highlightsデータセットでは平均mAP(平均精度平均値)が+12.36%向上し、THUMOS'14データセットでは[email protected](閾値0.5での平均精度)が+1.64%向上しました。さらに、DenoiseLocはTACoSおよびMADデータセットにおいて最先端の性能を達成していますが、他の現在の手法よりも予測数が少ないという特徴があります。

境界ノイズ除去によるビデオ活動局所化 | 最新論文 | HyperAI超神経