HyperAIHyperAI

Command Palette

Search for a command to run...

オンラインマルチモーダル対話行動分類のための階層的融合

Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah

概要

本稿では、現在および過去の発話の生音声データおよびASR(自動音声認識)によって生成された転写文を用いた、オンラインマルチモーダル発話行動(DA)分類のためのフレームワークを提案する。既存のマルチモーダルDA分類手法は、音声モデリングの非効率性およびフェーズ後期の統合(late-stage fusion)という点で限界がある。本研究では、モダリティをより細粒度で統合し、大規模言語モデルおよび音声モデルの最近の進展を活用して音声特徴を抽出することで、マルチモーダルDA分類性能に顕著な向上を実現した。さらに、発話および対話のモデリングにおいて自己注意(self-attention)およびクロス注意(cross-attention)機構の有効性を検証した。提案手法は、代表的なDA分類データセットであるMRDAおよびEMOTyDAにおいて、現在の最先端モデルと比較してF1スコアで3パーセンテージポイントの大幅な向上を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています