
要約
本稿では、与えられた動画の全体的な文脈を階層的に理解することで、さまざまなモデルから得られる時系列行動分割結果を精緻化する「階層的行動セグメンテーション精製モデル(Hierarchical Action Segmentation Refiner, HASR)」を提案する。行動セグメンテーション用のバックボーンモデルが動画の分割方法を推定する際、本モデルはフレームレベルの特徴からセグメントレベルの表現を抽出し、さらにセグメントレベルの表現に基づいて動画全体レベルの表現を生成する。これらの階層的表現を基に、本モデルは動画全体の文脈を参照し、文脈に合わないセグメントラベルの修正を予測することができる。HASRは、MS-TCN、SSTDA、ASRFなど、さまざまな行動セグメンテーションモデルに統合可能であり、GTEA、50Salads、Breakfastの3つの難易度の高いデータセット上で、最先端モデルの性能を向上させる。例えば、50Saladsデータセットにおいて、MS-TCNのセグメント編集スコアは67.9%から77.4%へ、SSTDAは75.8%から77.3%へ、ASRFは79.3%から81.0%へと向上した。さらに、HASRは訓練時に参照されていない未知のバックボーンモデルからの分割結果に対しても精製が可能である。この汎化性能により、HASRは時系列行動分割の既存手法を強化する有効なツールとなる。本研究のコードは、https://github.com/cotton-ahn/HASR_iccv2021 にて公開されている。