6ヶ月前

畳み込みニューラルネットワーク

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Yu Qiao Zhifeng Li Yali Wang An Yan

概要

最近の研究では、3D CNNを用いた動画行動認識において高い成果が報告されている。しかし、大多数の3DモデルはRGBとオプティカルフローの2つのストリームに基づいているため、人体のポーズダイナミクス——行動をモデル化する上で重要な手がかり——を十分に活用できていない可能性がある。このギャップを埋めるために、本研究では一貫した3Dフレームワーク内で複数のポーズモダリティを効果的に符号化できる簡潔なPose-Action 3D Machine（PA3D）を提案する。これにより、行動認識に向けた空間時間的ポーズ表現を学習することが可能となる。具体的には、フレーム間における空間的ポーズを統合する新しい時系列ポーズ畳み込みを導入する。従来の時系列畳み込みとは異なり、本手法は人間の行動を識別する上で特徴的なポーズ運動を明示的に学習できる。JHMDB、HMDB、Charadesの3つの代表的なベンチマークにおける広範な実験結果から、PA3Dは最近のポーズベースのアプローチを上回る性能を示した。さらに、PA3Dは最近の3D CNN（例：I3D）と高い相補性を示し、マルチストリーム統合によってすべての評価データセットで最先端の性能を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

畳み込みニューラルネットワーク

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Yu Qiao Zhifeng Li Yali Wang An Yan

概要

最近の研究では、3D CNNを用いた動画行動認識において高い成果が報告されている。しかし、大多数の3DモデルはRGBとオプティカルフローの2つのストリームに基づいているため、人体のポーズダイナミクス——行動をモデル化する上で重要な手がかり——を十分に活用できていない可能性がある。このギャップを埋めるために、本研究では一貫した3Dフレームワーク内で複数のポーズモダリティを効果的に符号化できる簡潔なPose-Action 3D Machine（PA3D）を提案する。これにより、行動認識に向けた空間時間的ポーズ表現を学習することが可能となる。具体的には、フレーム間における空間的ポーズを統合する新しい時系列ポーズ畳み込みを導入する。従来の時系列畳み込みとは異なり、本手法は人間の行動を識別する上で特徴的なポーズ運動を明示的に学習できる。JHMDB、HMDB、Charadesの3つの代表的なベンチマークにおける広範な実験結果から、PA3Dは最近のポーズベースのアプローチを上回る性能を示した。さらに、PA3Dは最近の3D CNN（例：I3D）と高い相補性を示し、マルチストリーム統合によってすべての評価データセットで最先端の性能を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています