L'équipe Inception au task 8 de NSURL-2019 : Similarité sémantique de questions en arabe

Ce papier présente notre méthode pour la tâche de similarité sémantique de questions en arabe, dans le cadre du atelier NLP Solutions for Under-Resourced Languages (NSURL). L'objectif consiste à développer un modèle capable de détecter des questions sémantiquement similaires dans la langue arabe, sur la base d'un jeu de données donné. Différentes approches pour évaluer la similarité entre questions sont explorées dans ce travail. Les modèles proposés obtiennent des scores F1 élevés, compris entre 88 % et 96 %. Notre meilleure performance officielle est obtenue grâce à un modèle d'ensemble combinant un modèle BERT multilingue pré-entraîné avec différentes graines aléatoires, atteignant un score F1 de 95,924 %, ce qui nous classe en première position parmi les neuf équipes participantes.