8ヶ月前

3D マシンビジョン

畳み込みニューラルネットワーク

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Ballester Irene ; Peterka Ondřej ; Kampel Martin

概要

3Dヒューマンポーズ推定（HPE）は、RGB画像、深度マップ、または点群などの2Dまたは3D表現から人間の体のキーポイントを3次元空間に位置づけるタスクです。現在の深度と点群からのHPE手法は主に単一フレーム推定に依存しており、シーケンスからの時間情報を活用していません。本論文では、点群シーケンスを使用した3D HPEの新しいアプローチであるSPiKEを提案します。既存の手法がシーケンス内の各フレームを独立して処理するのに対し、SPiKEはトランスフォーマー構造を採用することで、シーケンス全体でのポイント間の時空間関係を符号化し、時間的な文脈を利用します。点群を局所ボリュームに分割し、点空間畳み込みによる空間特徴抽出を行うことで、SPiKEは各タイムスタンプにおける空間的一貫性を保ちつつ、トランスフォーマーによる効率的な処理を確保します。ITOPベンチマークでの実験結果によると、SPiKEは89.19%のmAP（mean Average Precision）を達成し、大幅に低い推論時間を実現しながら最先端の性能を発揮しています。詳細なアブレーション研究により、シーケンスの利用と我々のアルゴリズム選択の有効性がさらに検証されています。コードとモデルは以下のURLで公開されています: https://github.com/iballester/SPiKE

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

3D マシンビジョン

畳み込みニューラルネットワーク

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Ballester Irene ; Peterka Ondřej ; Kampel Martin

概要

3Dヒューマンポーズ推定（HPE）は、RGB画像、深度マップ、または点群などの2Dまたは3D表現から人間の体のキーポイントを3次元空間に位置づけるタスクです。現在の深度と点群からのHPE手法は主に単一フレーム推定に依存しており、シーケンスからの時間情報を活用していません。本論文では、点群シーケンスを使用した3D HPEの新しいアプローチであるSPiKEを提案します。既存の手法がシーケンス内の各フレームを独立して処理するのに対し、SPiKEはトランスフォーマー構造を採用することで、シーケンス全体でのポイント間の時空間関係を符号化し、時間的な文脈を利用します。点群を局所ボリュームに分割し、点空間畳み込みによる空間特徴抽出を行うことで、SPiKEは各タイムスタンプにおける空間的一貫性を保ちつつ、トランスフォーマーによる効率的な処理を確保します。ITOPベンチマークでの実験結果によると、SPiKEは89.19%のmAP（mean Average Precision）を達成し、大幅に低い推論時間を実現しながら最先端の性能を発揮しています。詳細なアブレーション研究により、シーケンスの利用と我々のアルゴリズム選択の有効性がさらに検証されています。コードとモデルは以下のURLで公開されています: https://github.com/iballester/SPiKE

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています