Command Palette
Search for a command to run...
グランアリー:25ヶ国語における音声認識および翻訳データセット
グランアリー:25ヶ国語における音声認識および翻訳データセット
Nithin Rao Koluguri Monica Sekoyan George Zelenfroynd Sasha Meister Shuoyang Ding et al
概要
多タスクかつ多言語的なアプローチは大規模モデルに有益であるが、低資源言語における音声処理はデータ不足のため、依然として十分に検討されていない。これを解決するため、本研究では、25のヨーロッパ言語における音声認識および翻訳を対象とした大規模な音声データセットコレクション「Granary」を提案する。これは、音声認識と翻訳の両面において、この規模で初めてオープンソース化された取り組みである。データ品質の向上のため、セグメンテーションを組み込んだ擬似ラベル付けパイプラインを用い、二段階推論、幻覚(ハルシネーション)のフィルタリング、および句読点の復元を実施している。さらに、擬似ラベル付けされた転写データからEuroLLMを用いて翻訳ペアを生成し、その後、データフィルタリングパイプラインを適用する。効率性を重視した本パイプラインは、膨大な量のデータを数時間のうちに処理可能である。処理済みデータで訓練されたモデルの性能を、高資源言語および低資源言語の既存のカレントデータセット上で比較評価した結果、約50%のデータ量で同程度の性能を達成できることを確認した。データセットは、以下のURLにて公開予定である。