HyperAIHyperAI

Command Palette

Search for a command to run...

Just Add π\piπ! Pose Induced Video Transformers for Understanding Activities of Daily Living を翻訳します。 π\piπ を加えるだけ!日常生活活動の理解に向けた姿勢誘導ビデオトランスフォーマー

Dominick Reilly Srijan Das

概要

ビデオトランスフォーマーは、人間の動作認識における事実上の標準となりましたが、RGBモダリティへの排他的依存は依然として特定の分野での採用を制限しています。そのような分野の一つが日常生活活動(ADL)であり、RGBだけでは視覚的に類似した動作や複数の視点から観察された動作を区別するのに十分ではありません。ビデオトランスフォーマーをADLに適用するために、我々はRGBに人間の姿勢情報(微細な動きと複数の視点に対する感度が高いことで知られています)を追加することが必須であるという仮説を立てました。これに基づき、初めての姿勢誘導型ビデオトランスフォーマー:PI-ViT(またはπ\piπ-ViT)を提案します。これは、ビデオトランスフォーマーが学習するRGB表現に2Dおよび3Dの姿勢情報を追加する新しい手法です。π\piπ-ViTの主要な要素は、2Dスケルトン誘導モジュールと3Dスケルトン誘導モジュールという2つのプラグインモジュールです。これらのモジュールは、RGB表現に2Dおよび3Dの姿勢情報を誘導することを担当しています。モジュールはポーズに応じた補助タスクを行うことで機能し、この設計選択によりπ\piπ-ViTは推論時にモジュールを削除することができます。特に注目に値するのは、π\piπ-ViTが現実世界と大規模なRGB-Dデータセットを含む3つの主要なADLデータセットで最先端の性能を達成しており、推論時には姿勢情報や追加的な計算負荷を求めないことです。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Just Add $\pi$! Pose Induced Video Transformers for Understanding Activities of Daily Living を翻訳します。 $\pi$ を加えるだけ!日常生活活動の理解に向けた姿勢誘導ビデオトランスフォーマー | 記事 | HyperAI超神経