トランスフォーマー時代の到来:話声感情認識における価値のギャップを埋める

自己教師あり学習により事前学習されたTransformerベースのアーキテクチャの最近の進展は、複数の機械学習タスクにおいて大きな可能性を示している。音声分野においても、こうしたアーキテクチャは感情認識(Speech Emotion Recognition, SER)の分野で成功裏に活用されている。しかし、既存の研究ではモデルサイズや事前学習データの影響についての評価が不十分であり、一般化能力、ロバスト性、公平性、効率性といった側面にも十分な注目が寄せられていない。本研究では、MSP-Podcastデータセットにおける覚醒度(arousal)、支配度(dominance)、価値(valence)の3次元を対象に、wav2vec 2.0およびHuBERTの複数の事前学習バージョンを微調整した上で、これらの側面について包括的な分析を行った。さらに、IEMOCAPおよびMOSIデータセットを用いて、コアス間一般化能力の評価も実施した。筆者らの知る限り、本研究は明示的な言語情報を利用せずに、MSP-Podcastにおけるvalence予測で最高性能を達成しており、一致相関係数(Concordance Correlation Coefficient, CCC)は.638を記録した。また、本研究の調査により、TransformerベースのアーキテクチャがCNNベースのベースラインに比べて小さな摂動に対してよりロバストであり、性別グループに対しては公平であることが明らかになったが、個々の話者に対しては公平性が保たれていないことが示された。さらに、本研究は初めて、Transformerモデルがvalence認識において優れた性能を発揮している理由が、Transformer層の微調整過程で学習された暗黙的な言語情報に起因していることを示した。このことにより、テキスト情報を明示的に活用する最近のマルチモーダルアプローチと同等の性能を達成できる理由が説明された。本研究の成果を総合すると、TransformerベースのアーキテクチャはSER分野における新たなSOTA(状態の最良)を確立しているが、残存するロバスト性および話者依存性の問題を克服するためのさらなる進展が求められる。本研究の再現性を確保するため、最も優れた性能を示したモデルをコミュニティに公開する。