HyperAIHyperAI

Command Palette

Search for a command to run...

(2.5+1)D 時空間シーングラフによる動画質問応答

Anoop Cherian Chiori Hori Tim K. Marks Jonathan Le Roux

概要

動画ベースの推論タスク(例:動画質問応答:QA)に用いられる空間時系列シーングラフ手法は、通常、動画の各フレームに対して個別にシーングラフを構築する。しかし、これらの手法は、動画が実際には3次元空間で進行する出来事の2次元「ビュー」の連続であるという事実を無視しがちであり、その結果、3次元シーンの意味情報がフレーム間で継承可能であるという点を損なっている。この洞察を活かして、我々は動画内の空間時系列情報の流れをより正確に捉えるための(2.5+1)Dシーングラフ表現を提案する。具体的には、まず、既存の2D→3D変換モジュールを用いて、各2Dフレームに推定された3次元構造を付与することで、2.5D(擬似3D)シーングラフを生成する。その後、動画フレームを共通の(2.5+1)D空間に登録し、各2Dシーングラフをその空間内で地盤付けする。この(2.5+1)Dグラフは、対象物が通常世界で移動するかどうかに基づき、静的サブグラフと動的サブグラフに分離される。動的グラフのノードには、他のグラフノードとの相互作用を捉えた運動特徴が追加される。次に、動画QAタスクに対して、(2.5+1)Dグラフを空間時系列階層的潜在空間に埋め込む新たなTransformerベースの推論パイプラインを提示する。この潜在空間では、サブグラフおよびそれらの相互作用が異なる粒度で捉えられる。本手法の有効性を検証するため、NExT-QAおよびAVSD-QAデータセット上で実験を実施した。実験結果から、提案する(2.5+1)D表現はトレーニングおよび推論の高速化を実現するとともに、階層的モデルが最先端手法と比較して、動画QAタスクにおいて優れた性能を示したことが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
(2.5+1)D 時空間シーングラフによる動画質問応答 | 記事 | HyperAI超神経