8ヶ月前

概要

音声キャプショニングの課題は、本質的に画像や動画のキャプショニングと類似しています。しかし、この分野には十分な注目が払われていません。本研究では、音声のキャプショニングに必要な3つの要件を提案します。(i) 生成されたテキストの流暢性、(ii) 入力音声に対する生成テキストの忠実性、そしてそれに関連する(iii) 聴取可能性（audibility）、つまり音声のみに基づいて認識できる品質です。私たちの手法はゼロショット手法であり、すなわちキャプショニングを行うための学習を行いません。代わりに、上記3つの品質に対応する3つのネットワークを用いた推論プロセスとしてキャプショニングが行われます。(i) 大規模言語モデル（本研究では利便性からGPT-2を使用）、(ii) 音声ファイルとテキスト間のマッチングスコアを提供するモデル（ここでは多モーダルマッチングネットワークであるImageBindを使用）、(iii) テキスト分類器（本研究ではGPT-4に設計したプロンプトを用いて自動的に収集したデータセットで訓練しました）。これらの手法により、聴取可能な文と聴取不可能な文の両方を生成することを目指します。AudioCapデータセットでの結果を示し、聴取可能性ガイドが基準となる手法よりも大幅に性能を向上させることを証明しています。基準となる手法にはこの目的が欠けています。

ソースPDF