6ヶ月前

音声および音声処理

マルチモーダル

オーディオ

マルチモーダル

Kai Yu Mengyue Wu Zeyu Xie Xuenan Xu

概要

本報告では、DCASE 2021チャレンジのタスク6である音響シーンおよび音響イベントの検出・分類（Detection and Classification of Acoustic Scenes and Events: DCASE）に対して、音声キャプションシステムの提案を行う。本研究で提案する音声キャプションシステムは、10層の畳み込みニューラルネットワーク（CNN）エンコーダと、時系列アテンションを備えた単層ゲート付き再帰ユニット（GRU）デコーダから構成される。本チャレンジでは、外部データおよび事前学習モデルの使用に制限が設けられていない。音声クリップ内の概念をより適切にモデル化するため、我々はAudioSetを用いた音声タグ付けタスク上でCNNエンコーダを事前学習した。標準的な交差エントロピーに基づく学習の後、評価指標を直接最適化するため、強化学習を用いたファインチューニングをさらに実施した。実験の結果、アンサンブルを用いない場合でも、公開評価スプリットにおいてSPIDErスコア28.6を達成した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

マルチモーダル

オーディオ

マルチモーダル

Kai Yu Mengyue Wu Zeyu Xie Xuenan Xu

概要

本報告では、DCASE 2021チャレンジのタスク6である音響シーンおよび音響イベントの検出・分類（Detection and Classification of Acoustic Scenes and Events: DCASE）に対して、音声キャプションシステムの提案を行う。本研究で提案する音声キャプションシステムは、10層の畳み込みニューラルネットワーク（CNN）エンコーダと、時系列アテンションを備えた単層ゲート付き再帰ユニット（GRU）デコーダから構成される。本チャレンジでは、外部データおよび事前学習モデルの使用に制限が設けられていない。音声クリップ内の概念をより適切にモデル化するため、我々はAudioSetを用いた音声タグ付けタスク上でCNNエンコーダを事前学習した。標準的な交差エントロピーに基づく学習の後、評価指標を直接最適化するため、強化学習を用いたファインチューニングをさらに実施した。実験の結果、アンサンブルを用いない場合でも、公開評価スプリットにおいてSPIDErスコア28.6を達成した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています