Représentations distribuées multilingues sans alignement de mots

Les représentations distribuées du sens constituent une méthode naturelle pour encoder les relations de covariance entre mots et expressions en traitement automatique des langues (NLP). En surmontant les problèmes de rareté des données et en fournissant des informations sur la liée sémantique qui ne sont pas disponibles dans les représentations discrètes, les représentations distribuées se sont révélées utiles dans de nombreuses tâches de TAL. Des travaux récents ont montré comment les représentations sémantiques compositionnelles peuvent être appliquées avec succès à diverses applications monolingues, telles que l'analyse de sentiment. Parallèlement, il y a eu quelques réussites initiales dans le domaine de l'apprentissage de représentations partagées au niveau des mots entre différentes langues. Nous combinons ces deux approches en proposant une méthode pour apprendre des représentations distribuées dans un cadre multilingue. Notre modèle apprend à attribuer des plongements similaires aux phrases alignées et des plongements dissemblables aux phrases non alignées, sans nécessiter d'alignement au niveau des mots. Nous démontrons que nos représentations sont informatives sur le plan sémantique et nous les appliquons à une tâche de classification de documents translingue où nous surpassons l'état de l'art précédent. De plus, en utilisant des corpus parallèles de plusieurs paires linguistiques, nous constatons que notre modèle apprend des représentations capables de capturer les relations sémantiques entre langues pour lesquelles aucune donnée parallèle n'a été utilisée.