HyperAIHyperAI

Command Palette

Search for a command to run...

非同期時空間フィールドによる動作認識

Gunnar A. Sigurdsson Santosh Divvala Ali Farhadi Abhinav Gupta

概要

行動は単なる動きや軌道以上のものであり、私たちは食べるために料理し、飲み物を飲むためにコップを持ちます。ビデオの完全な理解には外見モデルを超える必要があり、活動の系列だけでなく、意図などの高次構造についても推論を行う必要があります。しかし、これらをどのようにモデル化し、推論するのでしょうか?私たちは物体、行動、意図を含む活動の様々な側面について推論を行うための全結合時刻CRF(Conditional Random Field)モデルを提案します。このモデルのポテンシャルは深層ネットワークによって予測されます。このような構造化モデルのエンドツーエンド学習は困難な課題です:推論と学習のために全体のビデオからミニバッチを作成する必要があり、結果として数本しか含まれないミニバッチが生成されます。これによりデータポイント間に高い相関関係が生じ、バックプロパゲーションアルゴリズムが機能しなくなる可能性があります。この課題に対処するために、私たちは効率的なエンドツーエンド学習を可能にする非同期変分推論法を提示します。私たちの方法はCharadesベンチマークで22.4%の分類mAP(mean Average Precision)を達成し、最新技術(17.2% mAP)を上回り、時間的局在化タスクでも同等の性能向上を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています