9日前

DCASE 2021 チャレンジ タスク6 システム:弱教師あり事前学習および語選択手法を用いた自動音声キャプション生成

{Zhen Yang, Xiang Li, Dong Liu, Qichen Han∗, Weiqiang Yuan ∗}
DCASE 2021 チャレンジ タスク6 システム:弱教師あり事前学習および語選択手法を用いた自動音声キャプション生成
要約

本技術報告では、DCASE 2021チャレンジ、タスク6「自動音声キャプション(automated audio captioning)」への参加システムについて記述する。本研究では、音声理解およびキャプション生成のためのエンコーダ-デコーダモデルフレームワークを採用している。提案手法は、自動音声キャプションにおける2つの課題、すなわちデータ不足と語彙選択の不確定性を解決することを目的としている。実際のグレートキャプション(golden captions)付き音声データが限られているため、ヒューリスティック手法を用いてウェブ上から大規模な弱教師付きデータセットを収集した。その後、このデータセットを用いてエンコーダ-デコーダモデルを事前学習し、Clothoデータセット上で微調整(fine-tuning)を行った。語彙選択の不確定性を緩和するために、類似音声のキャプションから抽出したキーワードおよび事前学習済みモデルが生成した音声イベントタグを用いて、デコード段階における語の生成をガイドした。開発用テストデータセットを用いて提出物を評価した結果、最良の提出結果はSPIDErスコア31.8を達成したのに対し、ベースラインシステムのスコアは5.4であった。

DCASE 2021 チャレンジ タスク6 システム:弱教師あり事前学習および語選択手法を用いた自動音声キャプション生成 | 最新論文 | HyperAI超神経