11日前
音声データを用いた人間の感情分類における深層ニューラルネットワークと浅層ニューラルネットワークの比較:実証分析
{and Rajiv Misra, Rohit Kumar Gupta, Anurag Choubey, Sourajit Behera, Karanjit Singh Gill, Chandresh S. Kanani}
要約
人間の感情は、発話の音声のトーン特性を分析する方法から、発話の前に現れる顔の表情、さらには言葉を発しないままに感情を示す身体の仕草に至るまで、多様な方法で識別可能である。個人の正確な感情を把握することは、状況の理解を助け、適切な反応を促すことに貢献する。この現象は、日常的な人間とのコミュニケーションに用いられるフィードバックシステムにおいても成り立っており、特にスマートホームソリューションに利用されるシステムに顕著である。自動感情認識という分野は、コンピュータビジョン、生理学、さらには人工知能といったさまざまな研究分野における応用事例を含んでいる。本研究では、「リーゾン音声・映像感情発話・歌データベース(Ryerson Audio-Visual Database of Emotional Speech and Song: RAVDESS)」を用いて、発話の仕方に基づき感情を8つのカテゴリ——中立、喜び、悲しみ、怒り、落ち着き、恐怖、嫌悪、驚き——に分類することを目的としている。本研究では、音声信号に基づく新たな感情分類アプローチを提案する。音響特性に基づく感情分類は、発話される言語に依存しないため、多言語間の感情認識にも応用可能である。本研究の目的は、リアルタイム音声に対して感情を自動認識できるシステムの構築である。複数のシミュレーションを実施した結果、浅層畳み込みニューラルネットワーク(Shallow CNN)モデルを用いて、最高82.99%の分類精度を達成した。