HyperAIHyperAI

Command Palette

Search for a command to run...

ゼロショット音声キャプション生成における音声言語モデルのガイドと音声コンテキストキーワード

Leonard Salewski Stefan Fauth A. Sophia Koepke Zeynep Akata

概要

ゼロショット音声キャプション生成は、このタスクに事前に訓練を行わずに、音声コンテンツに対して説明的なテキストキャプションを自動的に生成することを目指しています。音声認識とは異なり、音声認識は話し言葉を含む音声コンテンツをテキストに翻訳するのに対し、音声キャプション生成は一般的に環境音や人間が行動を行う際に発生する音に関心を持っています。ゼロショット画像キャプション生成手法に着想を得て、私たちはZerAuCapという新しいフレームワークを提案します。このフレームワークは、特定のタスクへの訓練を必要とせずに、一般的な音声信号をテキストキャプションで要約します。特に、私たちのフレームワークでは、事前学習された大規模言語モデル(LLM)を使用してテキストを生成し、その生成過程は事前学習された音声-言語モデルによってガイドされます。これにより、音声コンテンツを説明するキャプションが生成されます。さらに、広く関連性のあるテキストを生成するために、言語モデルに提示される音響コンテクストキーワードも使用しています。提案したフレームワークはAudioCapsおよびClothoデータセットにおいてゼロショット音声キャプション生成で最先端の結果を達成しました。当該コードは https://github.com/ExplainableML/ZerAuCap で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています