HyperAIHyperAI

Command Palette

Search for a command to run...

視線追跡を用いた動画中の人間と物体の相互作用予測

Zhifan Ni Esteve Valls Mascaró Hyemin Ahn Dongheui Lee

概要

ビデオから人間-物体相互作用(HOIs)を理解することは、視覚シーンを完全に把握するために不可欠です。この研究分野は、画像からのHOIsの検出に取り組んできましたが、最近ではビデオからの検出にも注目が集まっています。しかし、第三者視点でのビデオベースのHOI予測タスクはまだ十分に研究されていません。本論文では、現在のHOIsを検出し、将来のHOIsを予測するためのフレームワークを設計します。私たちは、人間が物体と相互作用する前にその物体に注目することが多いという事実を利用することを提案します。これらの視線特徴量は、シーンコンテキストや人間-物体ペアの視覚的外観とともに、時空間トランスフォーマーを通じて融合されます。複数人の状況下でHOI予測タスクにおけるモデルの評価を行うために、私たちは個人別の多ラベル指標の一式を提案します。私たちのモデルは、日常生活を捉えたビデオが含まれるVidHOIデータセットで訓練および検証されました。これは現在最大規模のビデオHOIデータセットです。HOI検出タスクにおける実験結果は、私たちの手法がベースラインに対して相対的に36.3%向上していることを示しています。さらに、私たちは広範な削減実験を行い、時空間トランスフォーマーに対する私たちの改良と拡張の有効性を示しました。私たちのコードは公開されており、https://github.com/nizhf/hoi-prediction-gaze-transformer からアクセスできます。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています