
要約
クロスリンギスト的な文書分類は、ある言語のリソースで文書分類器を学習し、追加のリソースなしで異なる言語に転送することを目指しています。文献ではいくつかの手法が提案されており、現在の最良の実践はそれらをReuters Corpus Volume 2のサブセットで評価することです。しかし、このサブセットはわずか数言語(英語、ドイツ語、フランス語、スペイン語)しかカバーしておらず、ほとんどすべての既存研究が英語とドイツ語間の転送に焦点を当てています。さらに、我々は各言語間でのクラス事前分布が著しく異なることを観察しました。これは多言語性の評価を複雑にする要因であると考えられます。本論文では、8つの言語に対してクラス事前分布がバランスよく調整された新たなReutersコーパスのサブセットを提案します。イタリア語、ロシア語、日本語、中国語を追加することで、構文や形態論などにおいて非常に異なる言語もカバーしています。また、多言語単語埋め込みと文埋め込みを使用して、すべての言語転送方向に対する強力なベースラインを提供します。我々の目標は、クロスリンギスト的な文書分類を評価するための自由に利用可能なフレームワークを提供し、これにより重要な研究領域における進展を促進することです。