emoDARTS:優れた音声感情認識のためのCNNおよび順序ニューラルネットワークアーキテクチャの共同最適化

感情認識(Speech Emotion Recognition, SER)は、コンピュータが人間のコミュニケーションにおいて伝えられる感情を理解するための鍵となる技術である。近年の深層学習(Deep Learning, DL)の進展に伴い、SERモデルの性能は著しく向上している。しかし、最適なDLアーキテクチャを設計するには専門的な知識と実験的な評価が不可欠である。幸いにも、ニューラルアーキテクチャ探索(Neural Architecture Search, NAS)は、最適なDLモデルを自動的に決定する可能性を提供している。特に、微分可能なアーキテクチャ探索(Differentiable Architecture Search, DARTS)は、最適モデルの探索において高い効率性を示す手法である。本研究では、CNNと順序ニューラルネットワーク(SeqNN:LSTM、RNN)を統合したDARTS最適化アーキテクチャ「emoDARTS」を提案し、SERの性能向上を実現した。既存の文献は、CNNとLSTMの組み合わせが性能向上に寄与することを裏付けている。これまでDARTSはCNNとLSTMの演算子を独立して選択する目的で用いられてきたが、本研究では、DARTSを用いてCNNとSeqNNの演算子を同時に選択する新しいメカニズムを導入した。従来の研究とは異なり、CNNの層順序に制約を設けず、DARTSセル内での最適な層順序をDARTS自らが選択できるようにした。IEMOCAP、MSP-IMPROV、MSP-Podcastの3つのデータセットを用いた評価により、emoDARTSが従来の手動設計されたCNN-LSTMモデルを上回り、これまでに報告されたDARTSによるCNN-LSTMアーキテクチャの最良成績をも上回ることを実証した。