HyperAIHyperAI

Command Palette

Search for a command to run...

Un corpus pour la classification de documents multilingues en huit langues

Holger Schwenk; Xian Li

Résumé

La classification de documents interlangues vise à former un classifieur de documents sur des ressources dans une langue et à le transférer à une autre langue sans aucune ressource supplémentaire. Plusieurs approches ont été proposées dans la littérature, et la meilleure pratique actuelle consiste à les évaluer sur un sous-ensemble du Corpus Reuters Volume 2. Cependant, ce sous-ensemble ne couvre que quelques langues (anglais, allemand, français et espagnol), et presque toutes les publications se concentrent sur le transfert entre l'anglais et l'allemand. De plus, nous avons observé que les distributions a priori des classes diffèrent considérablement entre les langues. Nous soutenons que cela complique l'évaluation de la multilinguisme. Dans cet article, nous proposons un nouveau sous-ensemble du Corpus Reuters avec des distributions a priori équilibrées pour huit langues. En ajoutant l'italien, le russe, le japonais et le chinois, nous couvrons des langues qui sont très différentes en termes de syntaxe, de morphologie, etc. Nous fournissons des baselines solides pour toutes les directions de transfert linguistique en utilisant respectivement des plongements (embeddings) multilingues de mots et de phrases. Notre objectif est d'offrir un cadre librement disponible pour évaluer la classification de documents interlangues, et nous espérons par ces moyens encourager la recherche dans ce domaine important.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Un corpus pour la classification de documents multilingues en huit langues | Articles | HyperAI