11日前
不完全なデータを用いた音声視覚感情認識における自己注意機構を用いた融合手法
Kateryna Chumachenko, Alexandros Iosifidis, Moncef Gabbouj

要約
本稿では、音声・視覚感情認識を活用事例として、マルチモーダルデータ解析の問題に着目する。我々は、生データから学習可能なアーキテクチャを提案し、異なるモダリティ統合メカニズムを備えた3つの変種を記述する。これまでの多くの研究は、推論中に両モダリティが常に存在する理想状態を仮定しているが、本研究では、一方のモダリティが欠落しているか、ノイズを含む非制約的環境下におけるモデルのロバスト性を評価し、モダリティドロップアウトという手法によりこれらの課題を緩和する方法を提案する。特に重要なのは、このアプローチを採用することで、一方のモダリティの欠落またはノイズが生じる状況下での性能が大幅に向上するだけでなく、従来の理想状態(両モダリティが正常に存在する状況)においても性能が向上し、競合手法を上回ることである。