9日前
NTT DCASE2020 Challenge Task 6システム:キーワードと文長推定を用いた自動音声キャプション生成
Yuma Koizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino

要約
本技術報告では、DCASE 2020 Challenge(音響シーンおよび音響イベントの検出と分類)のTask 6:自動音声キャプション作成に参加するシステムについて記述する。本研究の提出物は、自動音声キャプション生成における2つの不確実性問題、すなわち単語選択の不確実性および文長の不確実性の解決に注力している。マルチタスク学習を用いてキーワードと文長を同時推定することで、主なキャプション生成問題と副次的な不確実性問題を一括して対処する手法を提案する。開発・テストデータセットを用いて、提案手法の簡略化モデルを評価した結果、スコアは20.7(SPIDEr)を達成したのに対し、ベースラインシステムのスコアは5.4であった。