11日前
拡散行動セグメンテーション
Daochang Liu, Qiyue Li, AnhDung Dinh, Tingting Jiang, Mubarak Shah, Chang Xu

要約
時間的行動分割は、長時間の動画を理解する上で不可欠なタスクである。従来の研究では、マルチステージモデルを用いた反復的精緻化(iterative refinement)の枠組みが一般的に採用されてきた。本研究では、この反復的精緻化の本質を共有しつつ、ノイズ除去拡散モデル(denoising diffusion models)を活用する新たなフレームワークを提案する。本フレームワークでは、入力動画特徴量を条件として、ランダムノイズから反復的に行動予測を生成する。人間の行動が示す三つの顕著な特性——位置の事前知識(position prior)、境界の曖昧性(boundary ambiguity)、行動間の関係的依存性(relational dependency)——を効果的にモデル化するため、条件入力に対して統一的なマスキング戦略を設計した。GTEA、50Salads、Breakfastの3つのベンチマークデータセットにおける広範な実験の結果、提案手法は最先端手法と比較して優れたか、同等の性能を達成し、行動分割において生成的手法(generative approach)の有効性を示した。