
要約
自動音声キャプションは、自然な言語で環境音声記録を記述するマルチモーダルタスクである。現在の大多数の手法は、音声入力から関連する意味情報を抽出するために事前学習された分析モデルを用いている。しかし、言語モデリングに関する事前知識はほとんど導入されておらず、データ不足のため対応するアーキテクチャの表現能力に限界がある。本論文では、汎用的な事前学習を施した大規模な条件付き言語モデルであるBARTに含まれる言語情報を利用した手法を提案する。キャプション生成は、テキスト形式のAudioSetタグの系列に条件付けられる。この入力は、時間的に整合された音声埋め込みによって拡張されており、これにより音声イベント認識の精度が向上する。全構造のBARTアーキテクチャを、追加パラメータを最小限に抑えて微調整する。実験結果から、アーキテクチャのスケーラビリティを超えて、単一言語の事前学習がマルチモーダルな音声キャプション設定においてテキスト品質を向上させることを示した。最良のモデルはAudioCapsにおいて46.5 SPIDErという最先端の性能を達成した。