HyperAIHyperAI
il y a 18 jours

Transfert de domaine formel de presse à partir d’un Hypernet pour l’annotation de POS sur Twitter

{Xuanjing Huang, Keyu Ding, Di Liang, Tao Gui, Minlong Peng, Qi Zhang, Jingjing Gong}
Transfert de domaine formel de presse à partir d’un Hypernet pour l’annotation de POS sur Twitter
Résumé

L’annotation morphosyntaxique (POS tagging) sur Twitter a suscité un intérêt considérable ces dernières années. Étant donné que la plupart des méthodes de POS tagging reposent sur des modèles supervisés, elles nécessitent généralement de grandes quantités de données étiquetées pour l’entraînement. Toutefois, les jeux de données étiquetés disponibles pour Twitter sont nettement plus petits que ceux dédiés au texte de presse (newswire). Ainsi, afin d’améliorer le POS tagging sur Twitter, la plupart des méthodes d’adaptation de domaine cherchent à exploiter les jeux de données de presse en apprenant des caractéristiques communes entre ces deux domaines. Pourtant, sous l’angle linguistique, les utilisateurs de Twitter ont tendance non seulement à imiter les expressions formelles des médias traditionnels, tels que la presse, mais aussi à développer des styles linguistiques informels. Par conséquent, le POS tagging dans un contexte formel sur Twitter peut être appris conjointement avec les données de presse, tandis que le POS tagging dans un contexte informel doit être traité de manière distincte. Pour atteindre cet objectif, nous proposons dans ce travail une méthode basée sur une hypernetwork afin de générer des paramètres différents, permettant ainsi de modéliser séparément les contextes présentant des styles d’expression variés. Les résultats expérimentaux sur trois jeux de données différents montrent que notre approche obtient des performances supérieures à celles des méthodes de pointe dans la plupart des cas.