2ヶ月前

BABEL: ボディ、アクション、および行動の英語ラベル

Punnakkal, Abhinanda R. ; Chandrasekaran, Arjun ; Athanasiou, Nikos ; Quiros-Ramirez, Alejandra ; Black, Michael J.
BABEL: ボディ、アクション、および行動の英語ラベル
要約

人間の動きの意味論的理解 -- 動きの「何を」「どのように」「なぜ」行うか -- は重要な問題であり、意味ラベル付きの人間行動データセットが必要です。既存のデータセットは主に2つのアプローチを取ります。大規模なビデオデータセットは多くの行動ラベルを含んでいますが、真実値3D人間運動は含まれていません。一方、モーションキャプチャ (mocap) データセットは正確な身体運動を持っていますが、行動数が限られています。この課題に対処するため、私たちはBABELという大規模な言語ラベル付きモーションキャプチャデータセットを紹介します。BABELは、AMASSから約43時間分のモーションキャプチャシーケンスに言語ラベルを付与しています。行動ラベルは2つの抽象レベルで提供されます -- シーケンスラベルはシーケンス全体の行動を説明し、フレームラベルはシーケンス内の各フレームにおけるすべての行動を説明します。各フレームラベルは、対応する行動の持続時間と正確に合わせられており、複数の行動が重複することもあります。BABELには28,000以上のシーケンスラベルと63,000以上のフレームラベルがあり、これらは250以上の独自の行動カテゴリに属しています。BABELからのラベルは、行動認識、時間的な行動局所化、動作合成などのタスクに活用できます。BABELがベンチマークとしての価値を示すために、私たちは3D行動認識におけるモデルの性能を評価しました。私たちはBABELが現実世界の状況にも適用可能な興味深い学習課題を提示し、3D行動認識における進歩の有用なベンチマークとなることを示しました。データセット、ベースライン手法および評価コードは学術研究目的で利用可能となっており、https://babel.is.tue.mpg.de/ でサポートされています。