2ヶ月前
オーディオキャプショニングトランスフォーマー
Mei, Xinhao ; Liu, Xubo ; Huang, Qiushi ; Plumbley, Mark D. ; Wang, Wenwu

要約
音声キャプショニングは、音声クリップの自然言語による説明を自動生成することを目指しています。ほとんどのキャプショニングモデルはエンコーダー-デコーダー構造に従っており、デコーダーはエンコーダーが抽出した音声特徴量に基づいて単語を予測します。畳み込みニューラルネットワーク(CNN)と再帰型ニューラルネットワーク(RNN)がしばしば音声エンコーダーとして使用されています。しかし、CNNは音声信号内の時間フレーム間の時系列関係をモデル化する能力に制限があり、RNNは時間フレーム間の長距離依存関係をモデル化する能力に制限があることが知られています。本論文では、完全なトランスフォーマーネットワークに基づくエンコーダー-デコーダー構造で、畳み込み操作を一切使用しないAudio Captioning Transformer (ACT) を提案します。提案手法は、音声信号内の全体的な情報をモデル化し、音声イベント間の時系列関係を捉える能力が向上しています。我々のモデルは最大規模の公開音声キャプショニングデータセットであるAudioCapsで評価されました。評価結果から、我々のモデルは他の最先端アプローチと比較して競争力のある性能を示していることが確認されました。