2ヶ月前
感情的な声の突発認識のための階層的回帰チェーンフレームワーク
Jinchao Li; Xixin Wu; Kaitao Song; Dongsheng Li; Xunying Liu; Helen Meng

要約
非言語音声を介した感情の信号伝達として一般的な声の突発(Vocal Burst: VB)は、日常の社会的交流において重要な役割を果たしています。人間の声の突発を理解し、モデル化することは、堅牢で汎用的な人工知能を開発するために不可欠です。声の突発を理解するための計算的手法を探求することは、研究者の注目を集めています。本研究では、連鎖回帰モデルに基づく階層的フレームワークを提案します。このフレームワークは、以下の複数の関係を明示的に考慮しています:(i) 感情状態と多様な文化との関係;(ii) 低次元(興奮度 & 評価度)と高次元(10種類の感情クラス)感情空間との関係;(iii) 高次元空間内の様々な感情クラス間の関係。データ希少性という課題に対処するために、層別および時間的な集約モジュールを使用した自己監督学習(Self-Supervised Learning: SSL)表現も利用しています。提案されたシステムはACII 感情的な声の突発(A-VB)チャレンジ 2022に参加し、「TWO」と「CULTURE」タスクで第1位となりました。ACII チャレンジ 2022データセットに基づく実験結果は、提案システムの優れた性能と、階層的連鎖回帰モデルを使用して複数の関係を考慮することの有効性を示しています。