2ヶ月前

MultiMAE-DER: 多モーダルマスク付き自己符号化器による動的emotion認識 注:「emotion」は通常、日本語では「感情」と訳されます。ただし、専門的な文脈では英語のまま使用されることもあります。どちらが適切かは文脈によりますので、ご確認ください。

Peihao Xiang; Chaohao Lin; Kaida Wu; Ou Bai
MultiMAE-DER: 多モーダルマスク付き自己符号化器による動的emotion認識
注:「emotion」は通常、日本語では「感情」と訳されます。ただし、専門的な文脈では英語のまま使用されることもあります。どちらが適切かは文脈によりますので、ご確認ください。
要約

本論文では、動的emotion recognitionのための多モーダルデータ処理に新たなアプローチを提案し、その手法をMultimodal Masked Autoencoder for Dynamic Emotion Recognition(MultiMAE-DER)と命名しています。MultiMAE-DERは、視覚と音響モーダル間の時空間シーケンス内で密接に関連する表現情報を活用します。事前に学習されたmasked autoencoderモデルを利用することで、MultiMAE-DERは単純かつ直接的なfine-tuningを通じて達成されます。さらに、6つの多モーダル入力シーケンスの融合戦略を最適化することにより、MultiMAE-DERの性能が向上します。これらの戦略は、空間、時間、および時空間シーケンスにおけるcross-domainデータ内の動的特徴相関に対処します。動的emotion recognitionのための最先端の多モーダル監督学習モデルと比較して、MultiMAE-DERはRAVDESSデータセットでweighted average recall(WAR)を4.41%向上させ、CREMADデータセットでは2.06%向上させています。また、多モーダル自己監督学習の最先端モデルと比較しても、IEMOCAPデータセットにおいて1.86%高いWARを達成しています。