HyperAIHyperAI

Command Palette

Search for a command to run...

ゼロショット音声キャプショニングにおける聴覚ガイドの活用

Tal Shaharabany Ariel Shaulov Lior Wolf

概要

音声キャプショニングの課題は、本質的に画像や動画のキャプショニングと類似しています。しかし、この分野には十分な注目が払われていません。本研究では、音声のキャプショニングに必要な3つの要件を提案します。(i) 生成されたテキストの流暢性、(ii) 入力音声に対する生成テキストの忠実性、そしてそれに関連する(iii) 聴取可能性(audibility)、つまり音声のみに基づいて認識できる品質です。私たちの手法はゼロショット手法であり、すなわちキャプショニングを行うための学習を行いません。代わりに、上記3つの品質に対応する3つのネットワークを用いた推論プロセスとしてキャプショニングが行われます。(i) 大規模言語モデル(本研究では利便性からGPT-2を使用)、(ii) 音声ファイルとテキスト間のマッチングスコアを提供するモデル(ここでは多モーダルマッチングネットワークであるImageBindを使用)、(iii) テキスト分類器(本研究ではGPT-4に設計したプロンプトを用いて自動的に収集したデータセットで訓練しました)。これらの手法により、聴取可能な文と聴取不可能な文の両方を生成することを目指します。AudioCapデータセットでの結果を示し、聴取可能性ガイドが基準となる手法よりも大幅に性能を向上させることを証明しています。基準となる手法にはこの目的が欠けています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています