
要約
行動は単なる動きや軌道以上のものであり、私たちは食べるために料理し、飲み物を飲むためにコップを持ちます。ビデオの完全な理解には外見モデルを超える必要があり、活動の系列だけでなく、意図などの高次構造についても推論を行う必要があります。しかし、これらをどのようにモデル化し、推論するのでしょうか?私たちは物体、行動、意図を含む活動の様々な側面について推論を行うための全結合時刻CRF(Conditional Random Field)モデルを提案します。このモデルのポテンシャルは深層ネットワークによって予測されます。このような構造化モデルのエンドツーエンド学習は困難な課題です:推論と学習のために全体のビデオからミニバッチを作成する必要があり、結果として数本しか含まれないミニバッチが生成されます。これによりデータポイント間に高い相関関係が生じ、バックプロパゲーションアルゴリズムが機能しなくなる可能性があります。この課題に対処するために、私たちは効率的なエンドツーエンド学習を可能にする非同期変分推論法を提示します。私たちの方法はCharadesベンチマークで22.4%の分類mAP(mean Average Precision)を達成し、最新技術(17.2% mAP)を上回り、時間的局在化タスクでも同等の性能向上を示しています。