8ヶ月前

概要

動画ベースの推論タスク（例：動画質問応答：QA）に用いられる空間時系列シーングラフ手法は、通常、動画の各フレームに対して個別にシーングラフを構築する。しかし、これらの手法は、動画が実際には3次元空間で進行する出来事の2次元「ビュー」の連続であるという事実を無視しがちであり、その結果、3次元シーンの意味情報がフレーム間で継承可能であるという点を損なっている。この洞察を活かして、我々は動画内の空間時系列情報の流れをより正確に捉えるための（2.5+1）Dシーングラフ表現を提案する。具体的には、まず、既存の2D→3D変換モジュールを用いて、各2Dフレームに推定された3次元構造を付与することで、2.5D（擬似3D）シーングラフを生成する。その後、動画フレームを共通の（2.5+1）D空間に登録し、各2Dシーングラフをその空間内で地盤付けする。この（2.5+1）Dグラフは、対象物が通常世界で移動するかどうかに基づき、静的サブグラフと動的サブグラフに分離される。動的グラフのノードには、他のグラフノードとの相互作用を捉えた運動特徴が追加される。次に、動画QAタスクに対して、（2.5+1）Dグラフを空間時系列階層的潜在空間に埋め込む新たなTransformerベースの推論パイプラインを提示する。この潜在空間では、サブグラフおよびそれらの相互作用が異なる粒度で捉えられる。本手法の有効性を検証するため、NExT-QAおよびAVSD-QAデータセット上で実験を実施した。実験結果から、提案する（2.5+1）D表現はトレーニングおよび推論の高速化を実現するとともに、階層的モデルが最先端手法と比較して、動画QAタスクにおいて優れた性能を示したことが明らかになった。

ソースPDF