
要約
音声信号からの感情認識(ER)は、表情やテキストベースのセンチメント分析と異なり、模倣が困難であるため、堅牢なアプローチとされている。感情に内在する貴重な情報は、人間とコンピュータの相互作用において重要であり、知能を持つ機械が現実世界で感性を持って対話できるようにする基盤となる。従来の音声信号処理に基づくER研究は、異なる信号モード分解手法と隠れた情報特徴の関連性に限定的に注目していた。しかし、不適切な分解パラメータの選定は、モードの重複や混合を引き起こし、情報量豊富な信号成分の損失を招くことがある。これに対して、本研究では、VGG16のフラット化出力層への影響を評価することで、意味のある音声特徴を明確に分離し、データ忠実性制約の最適なバランスパラメータおよび分解モード数を自動的に選定する、強化された変分モード分解(VGG-optiVMD)アルゴリズムを提案する。さまざまな特徴ベクトルを用いて、異なるデータベース上でVGG16ネットワークを学習させ、VGG-optiVMDの再現性および信頼性を評価した。Mel周波数ケプストラム係数(MFCC)、クロマグラム、Melスペクトログラム、Tonnetz図、スペクトル重心を連結して、1次元、2次元、3次元の特徴ベクトルを構築した。結果として、信号サンプリングレートの微調整と分解パラメータの最適化が分類精度に相乗効果をもたらすことが確認され、ベルリンEMO-DBデータベース上で7つの感情を予測する際、最先端の96.09%の精度を達成した。