8ヶ月前

概要

ゼロショット音声キャプション生成は、このタスクに事前に訓練を行わずに、音声コンテンツに対して説明的なテキストキャプションを自動的に生成することを目指しています。音声認識とは異なり、音声認識は話し言葉を含む音声コンテンツをテキストに翻訳するのに対し、音声キャプション生成は一般的に環境音や人間が行動を行う際に発生する音に関心を持っています。ゼロショット画像キャプション生成手法に着想を得て、私たちはZerAuCapという新しいフレームワークを提案します。このフレームワークは、特定のタスクへの訓練を必要とせずに、一般的な音声信号をテキストキャプションで要約します。特に、私たちのフレームワークでは、事前学習された大規模言語モデル（LLM）を使用してテキストを生成し、その生成過程は事前学習された音声-言語モデルによってガイドされます。これにより、音声コンテンツを説明するキャプションが生成されます。さらに、広く関連性のあるテキストを生成するために、言語モデルに提示される音響コンテクストキーワードも使用しています。提案したフレームワークはAudioCapsおよびClothoデータセットにおいてゼロショット音声キャプション生成で最先端の結果を達成しました。当該コードは https://github.com/ExplainableML/ZerAuCap で公開されています。

ソースPDF コードを表示