Moins de fonctionnalités se comportent bien sur la tâche d'identification de langue d'origine

Ce papier présente nos résultats obtenus lors de la tâche partagée NLI 2017. Nous avons participé aux trois sous-tâches : rédaction (essay), parole (speech) et fusion, qui utilisent respectivement le texte, la parole et les i-vecteurs pour identifier la langue maternelle du texte d’entrée. Dans la sous-tâche rédaction, le système basé sur un SVM linéaire utilisant des bigrammes de mots et des caractères 7-grammes a obtenu les meilleurs résultats. Dans la sous-tâche parole, un classificateur LDA fondé uniquement sur les i-vecteurs a surpassé un système combiné intégrant des caractéristiques textuelles issues des transcriptions de parole ainsi que des i-vecteurs. Dans la tâche de fusion, nous avons expérimenté plusieurs approches : combinaison d’i-vecteurs avec des caractéristiques de n-grammes d’ordre supérieur, combinaison d’i-vecteurs avec des unigrammes de mots, un ensemble basé sur la moyenne des probabilités, ainsi qu’un système d’ensemble empilé (stacked ensemble). Nos résultats montrent que l’association d’unigrammes de mots et d’i-vecteurs permet d’obtenir de meilleures performances que les systèmes entraînés avec un plus grand nombre de caractéristiques n-grammes. Nos meilleurs systèmes ont atteint des scores F1 de 87,16 %, 83,33 % et 91,75 % respectivement sur les sous-tâches rédaction, parole et fusion.