18日前

多言語音声感情認識のための深層学習および教師なし特徴の統合

{Roberto Tedesco, Licia Sbattella, Federico Galati, Vincenzo Scotti}
要約

本稿では、発話された文における多言語感情認識を目的とした畳み込みニューラルネットワーク(Convolutional Neural Network)を提案する。本研究の目的は、複数の言語に対応可能なテキスト情報と音声情報を統合して感情を認識できるモデルの構築である。提案するモデルはエンド・ツー・エンドの深層アーキテクチャを採用しており、生のテキストおよび音声データを入力として、畳み込み層を用いて階層的な分類特徴を抽出する。さらに、多言語無監視テキスト特徴の活用により、学習済みモデルが複数の言語で優れた性能を達成できることを示す。追加的に注目すべき点として、本手法ではテキストと音声データが単語レベルまたは音素レベルで同期(アライメント)されている必要がない。提案モデルであるPATHOSnetは、IEMOCAP、EmoFilm、SES、AESIの4つの異なる言語で構成された複数のコーパスを用いて学習および評価された。学習前の調整段階では、英語の感情を含む自然な音声録音と転写が提供されるIEMOCAPコーパスのみを用いてハイパーパラメータの最適化を行った。最終的に得られたモデルは、検討対象の4つの感情に対して、選定されたデータセットの一部で最先端(state-of-the-art)の性能を達成した。