HyperAIHyperAI

Command Palette

Search for a command to run...

CoordViT:座標情報の連結を用いた視覚変換器ベースの音声感情認識のための新規手法

Seung-Ho Lee Jeongyoon Kim

概要

最近、音声感情認識分野において、音声データの代わりにスペクトログラム画像を用いるTransformerベースの手法が、従来の畳み込みニューラルネットワーク(CNN)よりも高い精度を達成した。Vision Transformer(ViT)は、入力画像をパッチに分割して処理することで高精度な分類を実現するTransformerベースの手法であるが、線形投影などの埋め込み層のため、画素の位置情報が保持されないという課題を抱えている。本稿では、入力画像に座標情報を連結することで、ViTベースの音声感情認識の精度を向上させる新しい手法を提案する。提案手法は、入力画像に座標情報を連結することにより、画素の位置情報を保持することができるため、CREMA-Dデータセットにおいて、既存の最先端手法と比較して認識精度が82.96%まで向上した。その結果、本研究で提案する座標情報の連結法が、CNNだけでなくTransformerにも有効であることが実証された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています