8ヶ月前

概要

ビデオから人間-物体相互作用（HOIs）を理解することは、視覚シーンを完全に把握するために不可欠です。この研究分野は、画像からのHOIsの検出に取り組んできましたが、最近ではビデオからの検出にも注目が集まっています。しかし、第三者視点でのビデオベースのHOI予測タスクはまだ十分に研究されていません。本論文では、現在のHOIsを検出し、将来のHOIsを予測するためのフレームワークを設計します。私たちは、人間が物体と相互作用する前にその物体に注目することが多いという事実を利用することを提案します。これらの視線特徴量は、シーンコンテキストや人間-物体ペアの視覚的外観とともに、時空間トランスフォーマーを通じて融合されます。複数人の状況下でHOI予測タスクにおけるモデルの評価を行うために、私たちは個人別の多ラベル指標の一式を提案します。私たちのモデルは、日常生活を捉えたビデオが含まれるVidHOIデータセットで訓練および検証されました。これは現在最大規模のビデオHOIデータセットです。HOI検出タスクにおける実験結果は、私たちの手法がベースラインに対して相対的に36.3%向上していることを示しています。さらに、私たちは広範な削減実験を行い、時空間トランスフォーマーに対する私たちの改良と拡張の有効性を示しました。私たちのコードは公開されており、https://github.com/nizhf/hoi-prediction-gaze-transformer からアクセスできます。

ソースPDF コードを表示