8ヶ月前

自然言語処理

データセット

ドキュメント理解

AIインフラストラクチャ

自然言語処理

Holger Schwenk; Xian Li

概要

クロスリンギスト的な文書分類は、ある言語のリソースで文書分類器を学習し、追加のリソースなしで異なる言語に転送することを目指しています。文献ではいくつかの手法が提案されており、現在の最良の実践はそれらをReuters Corpus Volume 2のサブセットで評価することです。しかし、このサブセットはわずか数言語（英語、ドイツ語、フランス語、スペイン語）しかカバーしておらず、ほとんどすべての既存研究が英語とドイツ語間の転送に焦点を当てています。さらに、我々は各言語間でのクラス事前分布が著しく異なることを観察しました。これは多言語性の評価を複雑にする要因であると考えられます。本論文では、8つの言語に対してクラス事前分布がバランスよく調整された新たなReutersコーパスのサブセットを提案します。イタリア語、ロシア語、日本語、中国語を追加することで、構文や形態論などにおいて非常に異なる言語もカバーしています。また、多言語単語埋め込みと文埋め込みを使用して、すべての言語転送方向に対する強力なベースラインを提供します。我々の目標は、クロスリンギスト的な文書分類を評価するための自由に利用可能なフレームワークを提供し、これにより重要な研究領域における進展を促進することです。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

自然言語処理

データセット

ドキュメント理解

AIインフラストラクチャ

自然言語処理

Holger Schwenk; Xian Li

概要

クロスリンギスト的な文書分類は、ある言語のリソースで文書分類器を学習し、追加のリソースなしで異なる言語に転送することを目指しています。文献ではいくつかの手法が提案されており、現在の最良の実践はそれらをReuters Corpus Volume 2のサブセットで評価することです。しかし、このサブセットはわずか数言語（英語、ドイツ語、フランス語、スペイン語）しかカバーしておらず、ほとんどすべての既存研究が英語とドイツ語間の転送に焦点を当てています。さらに、我々は各言語間でのクラス事前分布が著しく異なることを観察しました。これは多言語性の評価を複雑にする要因であると考えられます。本論文では、8つの言語に対してクラス事前分布がバランスよく調整された新たなReutersコーパスのサブセットを提案します。イタリア語、ロシア語、日本語、中国語を追加することで、構文や形態論などにおいて非常に異なる言語もカバーしています。また、多言語単語埋め込みと文埋め込みを使用して、すべての言語転送方向に対する強力なベースラインを提供します。我々の目標は、クロスリンギスト的な文書分類を評価するための自由に利用可能なフレームワークを提供し、これにより重要な研究領域における進展を促進することです。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8言語対応の多言語文書分類用コーパス | 記事 | HyperAI超神経