8ヶ月前

マルチモーダル

マルチモーダル

Hengshun Zhou* Debin Meng* Yuanyuan Zhang Xiaojiang Peng† Jun Du Kai Wang Yu Qiao*

概要

音声映像に基づく感情認識の目的は、与えられた動画を基本的な感情に分類することである。本論文では、EmotiW 2019におけるアプローチについて説明し、主に音声と視覚モダリティの感情特徴量および特徴量融合戦略を探求する。感情特徴量に関しては、音声スペクトログラムとLog Melスペクトログラムの両方を使用した音声特徴量を探究し、異なるCNNモデルと異なる事前学習戦略で複数の顔特徴量を評価する。融合戦略に関しては、モダリティ内融合方法とクロスモダリティ融合方法を探求し、重要な感情特徴量を強調するために注意メカニズムを設計し、クロスモダリティ特徴量融合のために特徴量連結と因子分解双線形プーリング（Factorized Bilinear Pooling, FBP）を探求する。慎重な評価により、AFEW検証セットで65.5%、テストセットで62.48%の精度を得ることができ、チャレンジにおいて3位となった。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

マルチモーダル

Hengshun Zhou* Debin Meng* Yuanyuan Zhang Xiaojiang Peng† Jun Du Kai Wang Yu Qiao*

概要

音声映像に基づく感情認識の目的は、与えられた動画を基本的な感情に分類することである。本論文では、EmotiW 2019におけるアプローチについて説明し、主に音声と視覚モダリティの感情特徴量および特徴量融合戦略を探求する。感情特徴量に関しては、音声スペクトログラムとLog Melスペクトログラムの両方を使用した音声特徴量を探究し、異なるCNNモデルと異なる事前学習戦略で複数の顔特徴量を評価する。融合戦略に関しては、モダリティ内融合方法とクロスモダリティ融合方法を探求し、重要な感情特徴量を強調するために注意メカニズムを設計し、クロスモダリティ特徴量融合のために特徴量連結と因子分解双線形プーリング（Factorized Bilinear Pooling, FBP）を探求する。慎重な評価により、AFEW検証セットで65.5%、テストセットで62.48%の精度を得ることができ、チャレンジにおいて3位となった。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています