
要約
音声キャプション生成は、与えられた音声クリップについて自動的にテキストによる説明を生成するという最近提案されたタスクである。本研究では、音声埋め込み(audio embeddings)を活用した新たな深層ネットワークアーキテクチャを提示し、音声キャプションの予測を実現する。音声特徴量の抽出をログメルエネルギーに加えて行うことを目的として、VGGish音声埋め込みモデルを用いて、音声埋め込みが音声キャプションタスクにおける有効性を検証した。提案アーキテクチャは、音声とテキストの入力モダリティを別々に符号化し、デコーディング段階の前まで結合する構成となっている。音声符号化には双方向ゲート付き再帰ユニット(BiGRU)を、テキスト符号化にはGRUをそれぞれ用いた。その後、新しく公開された音声キャプション性能評価データセットであるClothoを用いてモデルの性能を評価し、既存の研究結果と比較した。実験結果から、提案するBiGRUベースの深層モデルが、既存の最先端手法を上回る性能を達成したことが示された。