6ヶ月前

データセット

マルチタスク学習

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Nithin Rao Koluguri Monica Sekoyan George Zelenfroynd Sasha Meister Shuoyang Ding et al

概要

多タスクかつ多言語的なアプローチは大規模モデルに有益であるが、低資源言語における音声処理はデータ不足のため、依然として十分に検討されていない。これを解決するため、本研究では、25のヨーロッパ言語における音声認識および翻訳を対象とした大規模な音声データセットコレクション「Granary」を提案する。これは、音声認識と翻訳の両面において、この規模で初めてオープンソース化された取り組みである。データ品質の向上のため、セグメンテーションを組み込んだ擬似ラベル付けパイプラインを用い、二段階推論、幻覚（ハルシネーション）のフィルタリング、および句読点の復元を実施している。さらに、擬似ラベル付けされた転写データからEuroLLMを用いて翻訳ペアを生成し、その後、データフィルタリングパイプラインを適用する。効率性を重視した本パイプラインは、膨大な量のデータを数時間のうちに処理可能である。処理済みデータで訓練されたモデルの性能を、高資源言語および低資源言語の既存のカレントデータセット上で比較評価した結果、約50%のデータ量で同程度の性能を達成できることを確認した。データセットは、以下のURLにて公開予定である。

https://example.com/granary

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

データセット

マルチタスク学習

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Nithin Rao Koluguri Monica Sekoyan George Zelenfroynd Sasha Meister Shuoyang Ding et al

概要

多タスクかつ多言語的なアプローチは大規模モデルに有益であるが、低資源言語における音声処理はデータ不足のため、依然として十分に検討されていない。これを解決するため、本研究では、25のヨーロッパ言語における音声認識および翻訳を対象とした大規模な音声データセットコレクション「Granary」を提案する。これは、音声認識と翻訳の両面において、この規模で初めてオープンソース化された取り組みである。データ品質の向上のため、セグメンテーションを組み込んだ擬似ラベル付けパイプラインを用い、二段階推論、幻覚（ハルシネーション）のフィルタリング、および句読点の復元を実施している。さらに、擬似ラベル付けされた転写データからEuroLLMを用いて翻訳ペアを生成し、その後、データフィルタリングパイプラインを適用する。効率性を重視した本パイプラインは、膨大な量のデータを数時間のうちに処理可能である。処理済みデータで訓練されたモデルの性能を、高資源言語および低資源言語の既存のカレントデータセット上で比較評価した結果、約50%のデータ量で同程度の性能を達成できることを確認した。データセットは、以下のURLにて公開予定である。

https://example.com/granary

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

グランアリー：25ヶ国語における音声認識および翻訳データセット | 記事 | HyperAI超神経