16日前

空間時系列グラフ上の関係性推論による動画要約

{Jie zhou, Jiwen Lu, Yucheng Han, Wencheng Zhu}
要約

本稿では、動的グラフモデリングを用いた空間時系列表現学習手法を提案し、動画要約に応用する。既存の多数の動画要約手法は、ImageNetで事前学習された深層モデルを用いて画像レベルの特徴を抽出するが、本手法は物体レベルおよび関係レベルの情報を活用することで、空間時系列依存関係をより適切に捉える。具体的には、検出された物体候補に対して空間グラフを構築し、その空間グラフの集約表現を用いて時系列グラフを構成する。その後、グラフ畳み込みネットワーク(GCN)を用いて空間グラフと時系列グラフ上で関係推論を実行し、重要度スコア予測およびキーショット選定に用いる空間時系列表現を抽出する。また、密に接続されたノードによって引き起こされる関係の混雑を回避するため、意味のない関係を無視する自己注意エッジプールモジュールをさらに設計した。本手法は、SumMeおよびTVSumの2つの代表的なベンチマークデータセット上で広範な実験を実施した。実験結果から、提案手法が最先端の動画要約手法と比較して優れた性能を達成することが示された。

空間時系列グラフ上の関係性推論による動画要約 | 最新論文 | HyperAI超神経