il y a 8 mois

Résumé

La classification de documents interlangues vise à former un classifieur de documents sur des ressources dans une langue et à le transférer à une autre langue sans aucune ressource supplémentaire. Plusieurs approches ont été proposées dans la littérature, et la meilleure pratique actuelle consiste à les évaluer sur un sous-ensemble du Corpus Reuters Volume 2. Cependant, ce sous-ensemble ne couvre que quelques langues (anglais, allemand, français et espagnol), et presque toutes les publications se concentrent sur le transfert entre l'anglais et l'allemand. De plus, nous avons observé que les distributions a priori des classes diffèrent considérablement entre les langues. Nous soutenons que cela complique l'évaluation de la multilinguisme. Dans cet article, nous proposons un nouveau sous-ensemble du Corpus Reuters avec des distributions a priori équilibrées pour huit langues. En ajoutant l'italien, le russe, le japonais et le chinois, nous couvrons des langues qui sont très différentes en termes de syntaxe, de morphologie, etc. Nous fournissons des baselines solides pour toutes les directions de transfert linguistique en utilisant respectivement des plongements (embeddings) multilingues de mots et de phrases. Notre objectif est d'offrir un cadre librement disponible pour évaluer la classification de documents interlangues, et nous espérons par ces moyens encourager la recherche dans ce domaine important.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Traitement Du Langage Naturel

Jeu De Données

Compréhension De Document

Infrastructure D'ia

Traitement Du Langage Naturel

Tâche

Holger Schwenk; Xian Li

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Traitement Du Langage Naturel

Jeu De Données

Compréhension De Document

Infrastructure D'ia

Traitement Du Langage Naturel

Tâche

Holger Schwenk; Xian Li

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Un corpus pour la classification de documents multilingues en huit langues

Holger Schwenk; Xian Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Un corpus pour la classification de documents multilingues en huit langues

Holger Schwenk; Xian Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Un corpus pour la classification de documents multilingues en huit langues

Holger Schwenk; Xian Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters