8ヶ月前

自然言語処理

データセット

ベンチマーク

AIインフラストラクチャ

自然言語処理

Amir Hossein Kargaran Ayyoob Imani François Yvon Hinrich Schütze

概要

最近のいくつかの論文では、約300の高リソース言語と中リソース言語に対する言語識別（Language Identification, LID）の優れた解決策が発表されています。しかし、（i）低リソース言語を広範囲にカバーし、（ii）厳密に評価され信頼性が高く、（iii）効率的で使いやすいLIDは存在していません。本稿では、これらの要件を満たすGlotLID-MというLIDモデルを公表します。このモデルは1665の言語を識別でき、従来の研究よりも大幅にカバレッジが向上しています。我々の実験では、GlotLID-MはF1スコアと偽陽性率（False Positive Rate, FPR）のバランスにおいて4つのベースライン（CLD3, FT176, OpenLID, NLLB）を上回っています。また、低リソース言語のLIDが抱える独自の課題について分析しました：コーパスメタデータの誤り、高リソース言語からのリーク、近縁言語の分離困難さ、マクロ言語とその変種との対応処理、そして一般的なノイジーなデータへの対応です。我々はGlotLID-Mをデータセット作成パイプラインに統合することで、低リソース言語や文化に対するNLP技術の品質向上とアクセス性向上に貢献することを期待しています。GlotLID-Mモデル（将来バージョン含む）、コードおよびデータソースの一覧は以下のURLから入手可能です：https://github.com/cisnlp/GlotLID.

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

自然言語処理

データセット

ベンチマーク

AIインフラストラクチャ

自然言語処理

Amir Hossein Kargaran Ayyoob Imani François Yvon Hinrich Schütze

概要

最近のいくつかの論文では、約300の高リソース言語と中リソース言語に対する言語識別（Language Identification, LID）の優れた解決策が発表されています。しかし、（i）低リソース言語を広範囲にカバーし、（ii）厳密に評価され信頼性が高く、（iii）効率的で使いやすいLIDは存在していません。本稿では、これらの要件を満たすGlotLID-MというLIDモデルを公表します。このモデルは1665の言語を識別でき、従来の研究よりも大幅にカバレッジが向上しています。我々の実験では、GlotLID-MはF1スコアと偽陽性率（False Positive Rate, FPR）のバランスにおいて4つのベースライン（CLD3, FT176, OpenLID, NLLB）を上回っています。また、低リソース言語のLIDが抱える独自の課題について分析しました：コーパスメタデータの誤り、高リソース言語からのリーク、近縁言語の分離困難さ、マクロ言語とその変種との対応処理、そして一般的なノイジーなデータへの対応です。我々はGlotLID-Mをデータセット作成パイプラインに統合することで、低リソース言語や文化に対するNLP技術の品質向上とアクセス性向上に貢献することを期待しています。GlotLID-Mモデル（将来バージョン含む）、コードおよびデータソースの一覧は以下のURLから入手可能です：https://github.com/cisnlp/GlotLID.

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

GlotLID: 低リソース言語の言語識別 | 記事 | HyperAI超神経