オーディオキャプション

オーディオキャプショニングは、音声コンテンツをテキスト説明に変換するタスクです。その主な目的は、音声エンコーダーを通じて音声の特徴を捉え、デコーダーを使用して自然言語の説明を生成し、音声コンテンツの正確な理解と表現を達成することです。このタスクは、マルチメディアコンテンツ分析や聴覚障害者への音声情報提供において重要な応用価値を持っています。しかし、既存の機械翻訳や画像キャプショニングの評価指標は、音声説明の品質を評価するのに完全には適していないため、研究者たちはSentence-BERTなどの事前学習済み言語モデルを用いた新しい評価方法を探求しています。