HyperAIHyperAI

Command Palette

Search for a command to run...

DCASE2021 チャレンジ タスク6 における上海交通大学システム:エンコーダ事前学習および強化学習を用いたオーディオキャプション

Kai Yu Mengyue Wu Zeyu Xie Xuenan Xu

概要

本報告では、DCASE 2021チャレンジのタスク6である音響シーンおよび音響イベントの検出・分類(Detection and Classification of Acoustic Scenes and Events: DCASE)に対して、音声キャプションシステムの提案を行う。本研究で提案する音声キャプションシステムは、10層の畳み込みニューラルネットワーク(CNN)エンコーダと、時系列アテンションを備えた単層ゲート付き再帰ユニット(GRU)デコーダから構成される。本チャレンジでは、外部データおよび事前学習モデルの使用に制限が設けられていない。音声クリップ内の概念をより適切にモデル化するため、我々はAudioSetを用いた音声タグ付けタスク上でCNNエンコーダを事前学習した。標準的な交差エントロピーに基づく学習の後、評価指標を直接最適化するため、強化学習を用いたファインチューニングをさらに実施した。実験の結果、アンサンブルを用いない場合でも、公開評価スプリットにおいてSPIDErスコア28.6を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています