HyperAIHyperAI

Command Palette

Search for a command to run...

MOSPA: 空間音響によって駆動される人間の動作生成

概要

バーチャルヒューマンが多様な聴覚刺激に動的にかつ現実的に反応することを可能にするのは、キャラクターアニメーションにおける重要な課題であり、知覚モデリングと動作合成の統合が求められています。その重要性にもかかわらず、この課題はまだ十分に研究されていません。これまでの多くの研究では、主に音声、音響、音楽などのモダリティをマッピングして人間の動作を生成することに焦点を当ててきました。しかし、これらのモデルは通常、空間オーディオ信号に符号化された空間的な特徴が人間の動作に与える影響を見落としています。このギャップを埋め、空間オーディオに対する人間の動きの高品質なモデリングを可能にするために、初めて包括的な空間オーディオ駆動型ヒューマンモーション(Spatial Audio-Driven Human Motion: SAM)データセットを導入します。このデータセットには多様で高品質な空間オーディオと動作データが含まれています。ベンチマークのために、私たちは単純ながら効果的な拡散型生成フレームワークを開発しました。これは空間オーディオによって駆動される人間の動作生成(Motion generation driven by SPatial Audio: MOSPA)向けのもので、効果的な融合機構を通じて身体の動きと空間オーディオとの関係を忠実に捉えます。訓練が完了すると、MOSPAは異なる空間オーディオ入力に基づいて多様で現実的な人間の動作を生成することができます。私たちは提案したデータセットについて詳細な調査を行い、ベンチマークのために広範な実験を行いました。その結果、私たちの手法はこの課題において最先端の性能を達成しています。当該モデルとデータセットは受理され次第オープンソース化されます。詳細については補足ビデオをご覧ください。科学技術用語処理:character animation → キャラクターアニメーションperceptual modeling → 知覚モデリングmotion synthesis → 動作合成modalities → モダリティhuman motion → 人間の動作spatial audio signals → 空間オーディオ信号Spatial Audio-Driven Human Motion (SAM) dataset → 空間オーディオ駆動型ヒューマンモーション(SAM)データセットdiffusion-based generative framework → 拡散型生成フレームワークMotion generation driven by SPatial Audio (MOSPA) → 空間オーディオによって駆動される人間の動作生成(MOSPA)fusion mechanism → 融合機構注釈:原文中の「space」や「spatial」は、「空間」と訳しました。「open-sourced」は「オープンソース化」と訳し、「supplementary video」は「補足ビデオ」と訳しました。これらの表現は日本語での一般的な用法です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MOSPA: 空間音響によって駆動される人間の動作生成 | 記事 | HyperAI超神経