Command Palette

Search for a command to run...

4ヶ月前

オンラインマルチモーダル対話行動分類のための階層的融合

{Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah}

オンラインマルチモーダル対話行動分類のための階層的融合

要約

本稿では、現在および過去の発話の生音声データおよびASR(自動音声認識)によって生成された転写文を用いた、オンラインマルチモーダル発話行動(DA)分類のためのフレームワークを提案する。既存のマルチモーダルDA分類手法は、音声モデリングの非効率性およびフェーズ後期の統合(late-stage fusion)という点で限界がある。本研究では、モダリティをより細粒度で統合し、大規模言語モデルおよび音声モデルの最近の進展を活用して音声特徴を抽出することで、マルチモーダルDA分類性能に顕著な向上を実現した。さらに、発話および対話のモデリングにおいて自己注意(self-attention)およびクロス注意(cross-attention)機構の有効性を検証した。提案手法は、代表的なDA分類データセットであるMRDAおよびEMOTyDAにおいて、現在の最先端モデルと比較してF1スコアで3パーセンテージポイントの大幅な向上を達成した。

ベンチマーク

ベンチマーク方法論指標
dialogue-act-classification-on-emotydaHierarchical Fusion
Accuracy: 63.42
dialogue-act-classification-on-icsi-meetingHierarchical Fusion
Accuracy: 91.8

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
オンラインマルチモーダル対話行動分類のための階層的融合 | 論文 | HyperAI超神経