8ヶ月前

ビデオ理解

オブジェクト検出

オブジェクト追跡

コンピュータビジョン

Meng-Jiun Chiou Chun-Yu Liao Li-Wei Wang Roger Zimmermann Jiashi Feng

概要

人間-物体相互作用（Human-Object Interaction: HOI）の検出は、機械による包括的な視覚理解において重要なステップです。非時間的なHOI（例：椅子に座る）を静止画から検出することは可能ですが、単一のビデオフレームから時間的なHOI（例：ドアを開ける/閉める）を推測することは、人間にとっても困難であり、近隣のフレームが重要な役割を果たします。しかし、従来のHOI手法は静止画のみで動作し、時間的なコンテキストなしでの推測が行われることから、最適でない性能につながる可能性があります。本論文では、このギャップを埋めるために、明示的な時間情報を用いてビデオベースのHOIを検出する方法を提案します。まず、一般的な行動検出基準の単純な時間認識変種がビデオベースのHOIでは機能しない理由について説明します。これは特徴量の一貫性問題（feature-inconsistency issue）によるものです。次に、人間と物体の軌跡、正しく位置付けられた視覚的特徴量、空間-時間マスキング姿勢特徴量などの時間情報を活用したシンプルかつ効果的なアーキテクチャである空間-時間HOI検出（Spatial-Temporal HOI Detection: ST-HOI）を提案します。さらに、提案手法が堅実な基準となる新しいビデオHOIベンチマーク「VidHOI」を構築しました。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ビデオ理解

オブジェクト検出

オブジェクト追跡

コンピュータビジョン

Meng-Jiun Chiou Chun-Yu Liao Li-Wei Wang Roger Zimmermann Jiashi Feng

概要

人間-物体相互作用（Human-Object Interaction: HOI）の検出は、機械による包括的な視覚理解において重要なステップです。非時間的なHOI（例：椅子に座る）を静止画から検出することは可能ですが、単一のビデオフレームから時間的なHOI（例：ドアを開ける/閉める）を推測することは、人間にとっても困難であり、近隣のフレームが重要な役割を果たします。しかし、従来のHOI手法は静止画のみで動作し、時間的なコンテキストなしでの推測が行われることから、最適でない性能につながる可能性があります。本論文では、このギャップを埋めるために、明示的な時間情報を用いてビデオベースのHOIを検出する方法を提案します。まず、一般的な行動検出基準の単純な時間認識変種がビデオベースのHOIでは機能しない理由について説明します。これは特徴量の一貫性問題（feature-inconsistency issue）によるものです。次に、人間と物体の軌跡、正しく位置付けられた視覚的特徴量、空間-時間マスキング姿勢特徴量などの時間情報を活用したシンプルかつ効果的なアーキテクチャである空間-時間HOI検出（Spatial-Temporal HOI Detection: ST-HOI）を提案します。さらに、提案手法が堅実な基準となる新しいビデオHOIベンチマーク「VidHOI」を構築しました。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています