3ヶ月前

Semantic2Graph:動画における行動セグメンテーションのためのグラフベース多モーダル特徴融合

Junbin Zhang, Pei-Hsuan Tsai, Meng-Hsun Tsai
Semantic2Graph:動画における行動セグメンテーションのためのグラフベース多モーダル特徴融合
要約

ビデオアクションセグメンテーションは、多くの分野で広く応用されている。従来の大多数の研究では、この目的にビデオベースのビジョンモデルが用いられてきた。しかし、これらはしばしば大きな受容領域(receptive field)やLSTM、Transformerなどの手法に依存して動画内の長期依存関係を捉えようとするため、計算リソースの消費が著しくなるという課題を抱えていた。この問題に対処するため、グラフベースのモデルが提案された。しかし、従来のグラフベースモデルは精度にやや欠ける傾向にあった。本研究では、動画内の長期依存関係を効果的にモデル化しつつ、計算コストを低減するとともに精度を向上させるため、新たなグラフ構造アプローチ「Semantic2Graph」を提案する。本手法では、フレームレベルで動画のグラフ構造を構築する。時間的エッジを用いて動画内の時間的関係およびアクションの順序を表現する。さらに、正例と負例の意味的エッジ(semantic edges)を設計し、それぞれに対応するエッジ重みを導入することで、動画アクションにおける長期的および短期的な意味的関係を同時に捉える。ノード属性には、動画コンテンツ、グラフ構造、ラベルテキストから抽出された多様なマルチモーダル特徴が含まれ、視覚的、構造的、意味的な手がかりを統合的に表現する。こうした多モーダル情報を効果的に統合するため、グラフニューラルネットワーク(GNN)を用いて特徴を融合し、ノードごとのアクションラベル分類を実現する。実験結果から、Semantic2GraphはGTEAや50Saladsといったベンチマークデータセットにおいて、最先端の手法を上回る性能を示した。さらに、複数のアブレーション実験により、意味的特徴がモデル性能の向上に寄与していることが裏付けられた。特に、Semantic2Graphにおける意味的エッジの導入により、計算コストを抑えたまま長期依存関係を効率的に捉えることが可能となり、ビデオベースのビジョンモデルにおける計算リソース制約という課題に対して実用的な解決策を提供していることが確認された。