HyperAIHyperAI

Command Palette

Search for a command to run...

Pontage de l'écart de domaine dans la classification de documents translinguistiques

Guokun Lai Barlas Oğuz Yiming Yang Veselin Stoyanov

Résumé

La rareté des données d'entraînement étiquetées empêche souvent l'internationalisation des modèles de traitement du langage naturel (NLP) à plusieurs langues. Les récentes avancées dans la compréhension interlinguistique (XLU) ont permis des progrès significatifs dans ce domaine, en tentant de surmonter la barrière linguistique grâce à des représentations universelles du langage. Cependant, même si le problème linguistique était résolu, les modèles formés dans une langue ne se transféreraient pas parfaitement vers une autre langue en raison du décalage naturel de domaine entre les langues et les cultures. Nous considérons un cadre de compréhension interlinguistique semi-supervisée, où des données étiquetées sont disponibles dans une langue source (l'anglais), mais où seules des données non étiquetées sont disponibles dans la langue cible. Nous combinons les méthodes interlinguistiques de pointe avec des méthodes récemment proposées pour l'apprentissage faiblement supervisé, telles que l'entraînement non supervisé et l'augmentation de données non supervisée, afin de combler simultanément le fossé linguistique et le fossé de domaine dans la XLU. Nous montrons que l'abord du fossé de domaine est crucial. Nous améliorons les résultats par rapport à des baselines solides et atteignons un nouveau niveau d'état de l'art pour la classification interlinguistique de documents.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp