HyperAI超神経

概要

音声感情認識（Speech Emotion Recognition, SER）は、音声を「喜び」「怒り」「悲しみ」「無感情」などの感情カテゴリに分類するタスクである。近年、深層学習がSERタスクに応用されており、本論文では、wav2vec-2.0に基づくエンドツーエンド型の深層ニューラルモデルを用いて、音声からテキストへの変換と感情分類を同時に実行するマルチタスク学習（Multi-task Learning, MTL）フレームワークを提案する。IEMOCAPベンチマーク上での実験結果から、提案手法がSERタスクにおいて最先端の性能を達成することが示された。さらに、アブレーションスタディにより、提案するMTLフレームワークの有効性が確認された。

概要

Kenneth Liang Church Renjie Huang Jiahong Zheng Xingyu Yuan Cai

概要

AIでAIを構築

HyperAI Newsletters

Kenneth Liang Church Renjie Huang Jiahong Zheng Xingyu Yuan Cai

概要

AIでAIを構築

HyperAI Newsletters

Kenneth Liang Church Renjie Huang Jiahong Zheng Xingyu Yuan Cai

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

マルチタスク学習を用いた音声感情認識

Kenneth Liang Church Renjie Huang Jiahong Zheng Xingyu Yuan Cai

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

マルチタスク学習を用いた音声感情認識

Kenneth Liang Church Renjie Huang Jiahong Zheng Xingyu Yuan Cai

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

マルチタスク学習を用いた音声感情認識

Kenneth Liang Church Renjie Huang Jiahong Zheng Xingyu Yuan Cai

概要

AIでAIを構築

HyperAI Newsletters