
要約
動画における時系列的関係モデリングは、行動認識や行動セグメンテーションといった人間の行動理解において不可欠である。グラフ畳み込みネットワーク(GCN)は、多くのタスクにおける関係推論において有望な性能を示しているが、長時間の動画シーケンスにGCNを効果的に適用することは依然として困難である。その主な理由は、多数のノード(すなわち動画フレーム)が存在するため、GCNが動画内の時系列的関係を適切に捉え、モデリングすることが難しいことにある。本論文では、この課題に対処するため、さまざまな時間スケールにおける動画フレーム間の時系列的関係および依存関係をモデル化することを目的とした、効果的なGCNモジュールである「拡張時系列グラフ推論モジュール(Dilated Temporal Graph Reasoning Module: DTGRM)」を提案する。具体的には、異なる時刻のフレームをノードとする多段階の拡張時系列グラフを構築することで、時系列的関係を捉え、モデル化する。さらに、提案モデルの時系列推論能力を強化するため、動画内の誤った時系列的関係を発見し修正するよう促す補助的な自己教師付きタスクを導入している。実験の結果、DTGRMモデルは、50Salads、Georgia Tech Egocentric Activities(GTEA)、Breakfastの3つの挑戦的なデータセットにおいて、最先端の行動セグメンテーションモデルを上回る性能を達成した。コードは以下のURLから公開されている:https://github.com/redwang/DTGRM。