BEAT:会話的ジェスチャー合成を目的とした大規模な意味的・感情的マルチモーダルデータセット

マルチモーダルデータに基づいて現実的で鮮明かつ人間らしい合成会話ジェスチャーを実現することは、利用可能なデータセットやモデル、標準的な評価指標の不足により、依然として解決されていない課題である。これを克服するため、本研究では、30人の話者による、8種類の感情および4言語で会話する様子を高品質に76時間分収録したマルチモーダルデータセット「Body-Expression-Audio-Text(BEAT)」を構築した。BEATは、i)76時間に及ぶ高品質なマルチモーダルデータ、ii)3200万フレーム分の感情および意味的関連性に関するフレームレベルのアノテーションを備えている。BEATに対する統計分析により、会話ジェスチャーが音声・テキスト・話者IDに加えて、顔面表情、感情、意味内容とも強い相関関係にあることが明らかになった。この知見をもとに、6つのモダリティ(身体運動、表情、音声、テキスト、感情、話者ID)を段階的(カスケード)アーキテクチャで統合したベースラインモデル「Cascaded Motion Network(CaMN)」を提案する。また、意味的関連性の評価を目的として、「Semantic Relevance Gesture Recall(SRGR)」という新たな評価指標を導入した。定性的および定量的な実験により、本指標の有効性、真のラベルデータの質、およびベースラインモデルの最先端性能が実証された。本研究において、BEATは人間のジェスチャーを研究する上で最大規模のモーションキャプチャデータセットであると考えられる。本データセットは、制御可能なジェスチャー合成、異モーダル間分析、感情的ジェスチャー認識など、多様な研究分野への貢献が期待される。データ、コード、モデルは以下のURLにて公開されている:https://pantomatrix.github.io/BEAT/。