11日前

微分可能アーキテクチャ探索を活用した音声感情認識の向上

Thejan Rajapakshe, Rajib Rana, Sara Khalifa, Berrak Sisman, Björn Schuller
微分可能アーキテクチャ探索を活用した音声感情認識の向上
要約

音声感情認識(Speech Emotion Recognition, SER)は、人間とコンピュータの相互作用における感情認識型コミュニケーションを実現する上で重要な技術である。近年の深層学習(Deep Learning, DL)の進展により、モデルの複雑性が向上したことで、SERモデルの性能は著しく向上している。しかし、最適なDLアーキテクチャを設計するには、事前の経験と実験的な評価が不可欠である。こうした課題に対して、ニューラルアーキテクチャ探索(Neural Architecture Search, NAS)は、最適なDLモデルを自動的に探索する有望なアプローチを提供している。特に、微分可能なアーキテクチャ探索(Differentiable Architecture Search, DARTS)は、NASを用いた効率的な最適化手法として注目されている。本研究では、CNNとLSTMを統合したDARTS最適化アーキテクチャを提案し、SERの性能向上を図る。既存の文献に基づき、CNNとLSTMの結合方式を適切に選定することで、性能のさらなる向上を実現している。これまでDARTSはCNNとLSTMの組み合わせに適用されてきたが、本研究では特に、DARTSを用いたCNN演算子の選択に新たなメカニズムを導入している。従来の研究とは異なり、DARTSセル内のCNN層の順序に制約を設けず、代わりにDARTS自体が最適な層順序を自律的に決定できるようにしている。IEMOCAPおよびMSP-IMPROVデータセットを用いた実験により、手動で設計されたCNN-LSTM構成と比較して、本手法が顕著に高いSER精度を達成することを実証した。また、CNN-LSTMアーキテクチャに対してDARTSを用いた既存の最高性能結果をも上回ることを確認した。これらの結果から、本研究で提案するDARTSベースのアーキテクチャ探索法は、感情認識タスクにおける深層学習モデルの自動設計において、高い有効性と実用性を有していることが示された。

微分可能アーキテクチャ探索を活用した音声感情認識の向上 | 最新論文 | HyperAI超神経