
要約
本稿では、複数のモダリティにわたる特徴エンコーダーの最適選択と融合について検討し、これらを一つのニューラルネットワークに統合することで感情検出性能の向上を図る。異なる融合手法を比較し、多モダリティ融合ネットワークにおけるマルチロス学習の影響を検証した結果、サブネットの性能に関する驚くべき重要な知見が得られた。また、文脈情報を統合することでモデル性能が顕著に向上することも明らかになった。本研究で構築した最良のモデルは、3つのデータセット(CMU-MOSI、CMU-MOSEI、CH-SIMS)において、現在の最先端(SOTA)性能を達成した。これらの結果は、ニューラルネットワークにおける感情検出性能を向上させるための最適化された特徴選択および融合アプローチの道筋を示唆している。