Command Palette
Search for a command to run...
ST-HOI: 動画における人間-物体相互作用検出の空間-時間ベースライン
ST-HOI: 動画における人間-物体相互作用検出の空間-時間ベースライン
Meng-Jiun Chiou Chun-Yu Liao Li-Wei Wang Roger Zimmermann Jiashi Feng
概要
人間-物体相互作用(Human-Object Interaction: HOI)の検出は、機械による包括的な視覚理解において重要なステップです。非時間的なHOI(例:椅子に座る)を静止画から検出することは可能ですが、単一のビデオフレームから時間的なHOI(例:ドアを開ける/閉める)を推測することは、人間にとっても困難であり、近隣のフレームが重要な役割を果たします。しかし、従来のHOI手法は静止画のみで動作し、時間的なコンテキストなしでの推測が行われることから、最適でない性能につながる可能性があります。本論文では、このギャップを埋めるために、明示的な時間情報を用いてビデオベースのHOIを検出する方法を提案します。まず、一般的な行動検出基準の単純な時間認識変種がビデオベースのHOIでは機能しない理由について説明します。これは特徴量の一貫性問題(feature-inconsistency issue)によるものです。次に、人間と物体の軌跡、正しく位置付けられた視覚的特徴量、空間-時間マスキング姿勢特徴量などの時間情報を活用したシンプルかつ効果的なアーキテクチャである空間-時間HOI検出(Spatial-Temporal HOI Detection: ST-HOI)を提案します。さらに、提案手法が堅実な基準となる新しいビデオHOIベンチマーク「VidHOI」を構築しました。