9日前

最適化された音声符号化を用いた大規模言語モデルを活用した自動音声キャプションの向上

Jizhong Liu, Gang Li, Junbo Zhang, Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Yujun Wang, Bin Wang
最適化された音声符号化を用いた大規模言語モデルを活用した自動音声キャプションの向上
要約

自動音声キャプション(AAC)は、自然言語で音声コンテンツを記述する音声からテキストへのタスクである。近年、大規模言語モデル(LLM)の進展と音声エンコーダーの訓練手法の改善により、AACの性能向上が可能となるようになった。そこで本研究では、以下の3つの観点からAACの性能向上を検討する。1)一貫性のあるアンサンブル蒸留(CED)を用いた事前学習済み音声エンコーダーを導入し、音響トークンの効果性を向上させるとともに、クエリ型トランスフォーマー(Q-Former)を介してLLMとのモダリティギャップを埋め、音響トークンを圧縮する。2)70億パラメータを有するLlama 2をデコーダーとして用いることの利点を検証する。3)もう一つの事前学習済みLLMを用いて、訓練データの不足やアノテーションの曖昧さによって生じるテキスト誤りを補正する。音声エンコーダーおよびテキストデコーダーの両方に対して、低ランク適応(LoRA)による最適化を実施している。実験の結果、各改善手法が有効であることが確認された。本手法は、33.0のSPIDEr-FLスコアを達成し、DCASE 2023 Task 6Aの優勝手法を上回った。

最適化された音声符号化を用いた大規模言語モデルを活用した自動音声キャプションの向上 | 最新論文 | HyperAI超神経