
要約
本稿では、現在および過去の発話の生音声データおよびASR(自動音声認識)によって生成された転写文を用いた、オンラインマルチモーダル発話行動(DA)分類のためのフレームワークを提案する。既存のマルチモーダルDA分類手法は、音声モデリングの非効率性およびフェーズ後期の統合(late-stage fusion)という点で限界がある。本研究では、モダリティをより細粒度で統合し、大規模言語モデルおよび音声モデルの最近の進展を活用して音声特徴を抽出することで、マルチモーダルDA分類性能に顕著な向上を実現した。さらに、発話および対話のモデリングにおいて自己注意(self-attention)およびクロス注意(cross-attention)機構の有効性を検証した。提案手法は、代表的なDA分類データセットであるMRDAおよびEMOTyDAにおいて、現在の最先端モデルと比較してF1スコアで3パーセンテージポイントの大幅な向上を達成した。