HyperAIHyperAI

Command Palette

Search for a command to run...

音声感情認識のためのベクトル量子化 masked autoencoder

Samir Sadok Simon Leglaive Renaud Séguier

概要

近年、深層学習技術の進展に伴い、音声感情認識(Speech Emotion Recognition, SER)分野では顕著な進歩が見られている。しかし、ラベル付きデータの限界ある可用性は、依然として大きな課題である。こうした課題に対処するため、自己教師学習(self-supervised learning)が近年、有望な解決策として注目されている。本論文では、音声信号から感情を認識するよう微調整可能な自己教師学習モデルとして、ベクトル量子化マスク自動符号化器(Vector Quantized Masked Autoencoder for Speech, VQ-MAE-S)を提案する。VQ-MAE-Sモデルは、ベクトル量子化変分自己符号化器(Vector-Quantized Variational Autoencoder)の離散潜在空間上で動作するマスク自動符号化器(Masked Autoencoder, MAE)に基づいている。実験結果から、VQ-MAE-SモデルがVoxCeleb2データセットで事前学習され、感情音声データ上で微調整された場合、生のスペクトログラム表現上で動作するMAEや、他の最先端手法を上回る性能を発揮することが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています