HyperAIHyperAI

Command Palette

Search for a command to run...

音声-映像感情認識における感情特徴と融合戦略の探求

Hengshun Zhou* Debin Meng* Yuanyuan Zhang Xiaojiang Peng† Jun Du Kai Wang Yu Qiao*

概要

音声映像に基づく感情認識の目的は、与えられた動画を基本的な感情に分類することである。本論文では、EmotiW 2019におけるアプローチについて説明し、主に音声と視覚モダリティの感情特徴量および特徴量融合戦略を探求する。感情特徴量に関しては、音声スペクトログラムとLog Melスペクトログラムの両方を使用した音声特徴量を探究し、異なるCNNモデルと異なる事前学習戦略で複数の顔特徴量を評価する。融合戦略に関しては、モダリティ内融合方法とクロスモダリティ融合方法を探求し、重要な感情特徴量を強調するために注意メカニズムを設計し、クロスモダリティ特徴量融合のために特徴量連結と因子分解双線形プーリング(Factorized Bilinear Pooling, FBP)を探求する。慎重な評価により、AFEW検証セットで65.5%、テストセットで62.48%の精度を得ることができ、チャレンジにおいて3位となった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています