1ヶ月前

動画における時間的関係推論

Bolei Zhou; Alex Andonian; Aude Oliva; Antonio Torralba
動画における時間的関係推論
要約

時間関係推論とは、物体や実体の意味のある変化を時間軸で結びつける能力であり、知的種の基本的な特性です。本論文では、複数の時間スケールでビデオフレーム間の時間依存関係を学習し推論するための効果的かつ解釈可能なネットワークモジュールである「時間関係ネットワーク(Temporal Relation Network: TRN)」を紹介します。我々は、Something-Something, Jester, および Charades という3つの最近のビデオデータセットを使用して、TRNを搭載したネットワークが活動認識タスクにおいてどのように機能するか評価しました。これらのデータセットは、根本的に時間関係推論に依存しています。結果は、提案されたTRNが畳み込みニューラルネットワークにビデオ内の時間関係を見出す優れた能力を与えることを示しています。わずかなサンプリングしか行われていないビデオフレームからでも、TRNを搭載したネットワークはSomething-Somethingデータセットにおける人間と物体の相互作用を正確に予測し、Jesterデータセットにおける様々な人間のジェスチャーを非常に競争力のある性能で識別することができます。また、Charadesデータセットでの日常活動認識においても、TRNを搭載したネットワークは2ストリームネットワークや3次元畳み込みネットワークを上回っています。さらに分析した結果、モデルがビデオ内で直感的かつ解釈可能な視覚的な常識知識を学習していることが明らかになりました。