6ヶ月前

データセット

音声および音声処理

AIインフラストラクチャ

オーディオ

Vladimir Kondratenko Artem Sokolov Nikolay Karpov Oleg Kutuzov Nikita Savushkin Fyodor Minkin

概要

本稿では、話者感情認識（SER）タスク向けに新たに開発されたデータセット「Dusha」を紹介する。このコーパスは、約350時間分のデータを含み、ロシア語による音声データが30万件以上とその音声認識テキスト（トランスクリプト）を収録している。これにより、現在までに公開されている最大規模の、音声とテキストの二モーダルデータセットとして、SERタスクにおいて最も大きなものとなっている。データはクラウドソーシングプラットフォームを用いてアノテーションが行われており、演技されたデータと実生活におけるデータの2つのサブセットに分かれている。演技されたサブセットは、実生活データ（ポッドキャスト音声から構成）に比べてクラス分布がよりバランスが取れているため、モデルの事前学習に適している。一方、実生活データは、モデルのファインチューニング、検証および妥当性評価に特化して設計されている。本論文では、データの前処理手順、アノテーション方法、およびベースラインモデルを用いた実験を通じて、Dushaデータセットを用いて得られる具体的な評価指標を示す。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

データセット

音声および音声処理

AIインフラストラクチャ

オーディオ

Vladimir Kondratenko Artem Sokolov Nikolay Karpov Oleg Kutuzov Nikita Savushkin Fyodor Minkin

概要

本稿では、話者感情認識（SER）タスク向けに新たに開発されたデータセット「Dusha」を紹介する。このコーパスは、約350時間分のデータを含み、ロシア語による音声データが30万件以上とその音声認識テキスト（トランスクリプト）を収録している。これにより、現在までに公開されている最大規模の、音声とテキストの二モーダルデータセットとして、SERタスクにおいて最も大きなものとなっている。データはクラウドソーシングプラットフォームを用いてアノテーションが行われており、演技されたデータと実生活におけるデータの2つのサブセットに分かれている。演技されたサブセットは、実生活データ（ポッドキャスト音声から構成）に比べてクラス分布がよりバランスが取れているため、モデルの事前学習に適している。一方、実生活データは、モデルのファインチューニング、検証および妥当性評価に特化して設計されている。本論文では、データの前処理手順、アノテーション方法、およびベースラインモデルを用いた実験を通じて、Dushaデータセットを用いて得られる具体的な評価指標を示す。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

大規模な原始感情データセットと集約メカニズム | 記事 | HyperAI超神経