11日前

フィラー語の検出と分類:データセットとベンチマーク

Ge Zhu, Juan-Pablo Caceres, Justin Salamon
フィラー語の検出と分類:データセットとベンチマーク
要約

「uh」や「um」などのフィラー語は、人々が考えを整理するための一時的な停止を示すために用いる音や言葉である。録音データからフィラー語を検出し除去することは、メディア編集において一般的かつ煩雑な作業である。自動的にフィラー語を検出し分類できる仕組みの開発は、この作業を大幅に支援する可能性を秘めているが、これまでこの問題に関する研究は極めて少ない。その主な理由の一つは、モデルの学習および評価に利用可能な、フィラー語が正確に注釈されたデータセットが存在しなかったためである。本研究では、35,000件のフィラー語と、ポッドキャストに頻出する呼吸音、笑い声、語の繰り返しといった他の音声類型を含む50,000件の注釈を有する新規音声データセット「PodcastFillers」を提案する。本研究では、VAD(音声活動検出)とASR(自動音声認識)を活用してフィラー候補を抽出し、分類器によりフィラー語の種類を識別するパイプラインを提案する。このパイプラインをPodcastFillersデータセット上で評価し、複数のベースラインと比較して詳細なアブレーションスタディを実施した。特に、ASRを用いることの重要性を検証し、キーワードスポットティングに類似するトランスクリプション不要なアプローチと比較した。その結果、本パイプラインが最先端の性能を達成し、ASRを活用するアプローチがキーワードスポットティング手法を大きく上回ることを示した。本研究で構築したPodcastFillersデータセットは公開しており、今後の研究におけるベンチマークとしての役割を期待している。

フィラー語の検出と分類:データセットとベンチマーク | 最新論文 | HyperAI超神経