HyperAIHyperAI
il y a 17 jours

Intégration hiérarchique de méta-embeddings pour la reconnaissance de noms propres dans les textes à code-switching

Genta Indra Winata, Zhaojiang Lin, Jamin Shin, Zihan Liu, Pascale Fung
Intégration hiérarchique de méta-embeddings pour la reconnaissance de noms propres dans les textes à code-switching
Résumé

Dans les pays où plusieurs langues principales sont parlées, le mélange de différentes langues au sein d’une même conversation est couramment appelé « changement de code ». Les travaux antérieurs abordant ce défi se sont principalement concentrés sur des aspects au niveau des mots, tels que les embeddings de mots. Toutefois, dans de nombreux cas, les langues partagent des sous-mots communs, en particulier pour des langues étroitement liées, mais aussi parfois pour des langues apparemment sans rapport. Ainsi, nous proposons une méthode appelée « Hierarchical Meta-Embeddings » (HME), qui apprend à combiner des embeddings monolingues au niveau des mots et au niveau des sous-mots afin de générer des représentations lexicales indépendantes des langues. Sur la tâche de reconnaissance d'entités nommées (Named Entity Recognition) dans des données de changement de code entre anglais et espagnol, notre modèle atteint un résultat de pointe dans les configurations multilingues. Nous démontrons également que, dans des contextes multilingues, notre modèle exploite non seulement des langues étroitement apparentées, mais aussi apprend à partir de langues ayant des racines différentes. Enfin, nous montrons que la combinaison de différentes unités sous-motiviques est essentielle pour capturer efficacement les entités dans les textes à changement de code.