7ヶ月前

ビデオ理解

オブジェクト追跡

ディープラーニング

コンピュータビジョン

Matthias Minderer Chen Sun Ruben Villegas Forrester Cole Kevin Murphy Honglak Lee

概要

監督なしで動画から物体の構造と動態を抽出し予測することは、機械学習における主要な課題である。この課題に対処するために、キーポイントベースの画像表現を採用し、キーポイントの確率的な動態モデルを学習する。将来のフレームは、キーポイントと参照フレームから再構成される。キーポイント座標空間での動態モデリングにより、安定した学習が達成され、ピクセル空間での誤差の累積を回避できる。当手法は、ピクセルレベルの動画予測だけでなく、運動動態のオブジェクトレベルの理解が必要な下流タスクにおいても非構造化表現よりも優れている。我々は多様なデータセットでモデルを評価した：複数エージェントのスポーツデータセット、Human3.6Mデータセット、およびDeepMind Control Suiteに基づく連続制御タスクのデータセットである。空間的に構造化された表現は、物体追跡や行動認識、報酬予測などの一連の運動関連タスクにおいて非構造化表現を上回った。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

ビデオ理解

オブジェクト追跡

ディープラーニング

コンピュータビジョン

Matthias Minderer Chen Sun Ruben Villegas Forrester Cole Kevin Murphy Honglak Lee

概要

監督なしで動画から物体の構造と動態を抽出し予測することは、機械学習における主要な課題である。この課題に対処するために、キーポイントベースの画像表現を採用し、キーポイントの確率的な動態モデルを学習する。将来のフレームは、キーポイントと参照フレームから再構成される。キーポイント座標空間での動態モデリングにより、安定した学習が達成され、ピクセル空間での誤差の累積を回避できる。当手法は、ピクセルレベルの動画予測だけでなく、運動動態のオブジェクトレベルの理解が必要な下流タスクにおいても非構造化表現よりも優れている。我々は多様なデータセットでモデルを評価した：複数エージェントのスポーツデータセット、Human3.6Mデータセット、およびDeepMind Control Suiteに基づく連続制御タスクのデータセットである。空間的に構造化された表現は、物体追跡や行動認識、報酬予測などの一連の運動関連タスクにおいて非構造化表現を上回った。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

ビデオからの物体の構造と動態の非監督学習 | 記事 | HyperAI超神経