HyperAIHyperAI
il y a 2 mois

Un corpus pour la classification de documents multilingues en huit langues

Holger Schwenk; Xian Li
Un corpus pour la classification de documents multilingues en huit langues
Résumé

La classification de documents interlangues vise à former un classifieur de documents sur des ressources dans une langue et à le transférer à une autre langue sans aucune ressource supplémentaire. Plusieurs approches ont été proposées dans la littérature, et la meilleure pratique actuelle consiste à les évaluer sur un sous-ensemble du Corpus Reuters Volume 2. Cependant, ce sous-ensemble ne couvre que quelques langues (anglais, allemand, français et espagnol), et presque toutes les publications se concentrent sur le transfert entre l'anglais et l'allemand. De plus, nous avons observé que les distributions a priori des classes diffèrent considérablement entre les langues. Nous soutenons que cela complique l'évaluation de la multilinguisme. Dans cet article, nous proposons un nouveau sous-ensemble du Corpus Reuters avec des distributions a priori équilibrées pour huit langues. En ajoutant l'italien, le russe, le japonais et le chinois, nous couvrons des langues qui sont très différentes en termes de syntaxe, de morphologie, etc. Nous fournissons des baselines solides pour toutes les directions de transfert linguistique en utilisant respectivement des plongements (embeddings) multilingues de mots et de phrases. Notre objectif est d'offrir un cadre librement disponible pour évaluer la classification de documents interlangues, et nous espérons par ces moyens encourager la recherche dans ce domaine important.

Un corpus pour la classification de documents multilingues en huit langues | Articles de recherche récents | HyperAI