Tagging des parties du discours pour Twitter avec des réseaux neuronaux adverses

Dans ce travail, nous étudions le problème d’annotation morphosyntaxique (part-of-speech tagging) des Tweets. Contrairement aux articles de presse, les Tweets sont généralement informels et contiennent de nombreuses occurrences de mots hors vocabulaire (out-of-vocabulary). En outre, il existe un manque de grands jeux de données étiquetés pour ce domaine. Pour relever ces défis, nous proposons un nouveau réseau de neurones capable d’utiliser à la fois des données étiquetées provenant de domaines étrangers, des données non étiquetées du domaine cible, ainsi que des données étiquetées du domaine cible. Inspirés par les réseaux neuronaux adversariaux, la méthode proposée cherche à apprendre des caractéristiques communes grâce à un discriminateur adversarial. Par ailleurs, nous supposons que certaines caractéristiques spécifiques au domaine cible doivent être préservées dans une certaine mesure. Ainsi, la méthode adopte un autoencodeur séquentiel à séquence afin de réaliser cette tâche. Les résultats expérimentaux sur trois jeux de données différents montrent que notre approche obtient de meilleures performances que les méthodes de pointe.