9日前

SLAM-AAC:LLMを活用した並列表現拡張とCLAP-Refineによる音声キャプションの向上

Wenxi Chen, Ziyang Ma, Xiquan Li, Xuenan Xu, Yuzhe Liang, Zhisheng Zheng, Kai Yu, Xie Chen
SLAM-AAC:LLMを活用した並列表現拡張とCLAP-Refineによる音声キャプションの向上
要約

自動音声キャプション(Automated Audio Captioning, AAC)は、入力音声信号に対して自然なテキスト記述を生成することを目的としています。近年、音声事前学習モデルおよび大規模言語モデル(Large Language Models, LLMs)の進展により、音声理解およびテキスト推論の能力が顕著に向上しており、これによりAACの性能向上が可能になっています。本論文では、LLMsを活用した言い換え増強(paraphrasing augmentation)とCLAP-Refine手法を導入することで、AACの性能をさらに向上させる「SLAM-AAC」を提案します。本手法は、自己教師学習型のEATモデルを用いて細粒度な音声表現を抽出し、軽量な線形層を介してテキスト埋め込みと対応付けます。キャプション生成用のLLMは、LoRAアダプタを用いて効率的に微調整されます。機械翻訳におけるバックトランスレーション手法に着想を得て、事前学習段階においてClothoデータセットを言い換え増強によって拡張する戦略を実装しました。このアプローチにより、音声-テキストペアの不足という課題を緩和し、少数の音声クリップから多様なキャプションを生成することが可能になります。推論段階では、音声認識におけるn-best再スコアリング戦略に類似した、即座に接続可能なCLAP-Refine戦略を導入し、複数のデコード出力を最大限に活用します。CLAPモデルを用いて音声とテキストの類似度を計算することで、複数の探索ビームから生成されたテキスト記述の中から、入力音声に最も適合するものを選択できます。実験結果から、SLAM-AACはClotho V2およびAudioCapsの両データセットにおいて、従来の主流モデルを上回る最先端の性能を達成することが確認されました。

SLAM-AAC:LLMを活用した並列表現拡張とCLAP-Refineによる音声キャプションの向上 | 最新論文 | HyperAI超神経