9日前

DCASE2021 チャレンジ タスク6 における上海交通大学システム:エンコーダ事前学習および強化学習を用いたオーディオキャプション

{Kai Yu, Mengyue Wu, Zeyu Xie, Xuenan Xu}
DCASE2021 チャレンジ タスク6 における上海交通大学システム:エンコーダ事前学習および強化学習を用いたオーディオキャプション
要約

本報告では、DCASE 2021チャレンジのタスク6である音響シーンおよび音響イベントの検出・分類(Detection and Classification of Acoustic Scenes and Events: DCASE)に対して、音声キャプションシステムの提案を行う。本研究で提案する音声キャプションシステムは、10層の畳み込みニューラルネットワーク(CNN)エンコーダと、時系列アテンションを備えた単層ゲート付き再帰ユニット(GRU)デコーダから構成される。本チャレンジでは、外部データおよび事前学習モデルの使用に制限が設けられていない。音声クリップ内の概念をより適切にモデル化するため、我々はAudioSetを用いた音声タグ付けタスク上でCNNエンコーダを事前学習した。標準的な交差エントロピーに基づく学習の後、評価指標を直接最適化するため、強化学習を用いたファインチューニングをさらに実施した。実験の結果、アンサンブルを用いない場合でも、公開評価スプリットにおいてSPIDErスコア28.6を達成した。