
本稿では、スペクトログラムにおける周波数(y軸)と時間(x軸)の相関関係に注目するため、ビジョントランスフォーマー(ViT)を活用し、知識伝達を通じてViT間で位置情報の転送を行うことで、音声感情認識(SER)の精度を向上させる手法を提案する。本手法の主な貢献は以下の通りである。i) ログメルスペクトログラムを縦方向にパッチ分割し、時間経過に伴う周波数の相関を分析する。このパッチ構造により、特定の感情に対応する最も関連性の高い周波数と、その周波数が発話された時間の対応関係を明確に捉えることが可能となる。ii) 画像座標符号化(image coordinate encoding)を提案する。これはViTに適した絶対位置符号化の一種であり、画像のx軸およびy軸座標を-1から1に正規化し、それらを画像データに連結することで、ViTに有効な絶対位置情報を効果的に供給できる。iii) 特徴マップマッチングを用いて、教師ネットワークの局所性および位置情報が効果的に学生ネットワークに伝達される。教師ネットワークは、畳み込みステムによる局所性と、画像座標符号化による絶対位置情報を持つViTであり、学生ネットワークは基本的なViT構造に位置符号化を備えないものである。特徴マップマッチング段階では、2つのネットワークの特徴マップ間の差異を最小化するため、平均絶対誤差(L1損失)を用いて学習を行う。提案手法の有効性を検証するため、音声データから構成される3つの感情データセット(SAVEE、EmoDB、CREMA-D)をログメルスペクトログラムに変換し、比較実験を実施した。実験結果から、提案手法は重み付き正解率において最先端の手法を顕著に上回るとともに、浮動小数点演算量(FLOPs)を大幅に削減していることが明らかになった。総合的に見て、本手法は効率性と性能の両面で優れた成果を示し、SER分野における有望な解決策を提供するものである。