HyperAIHyperAI
il y a 17 jours

FarsTail : Un jeu de données inférence linguistique naturelle en persan

Hossein Amirkhani, Mohammad AzariJafari, Zohreh Pourjafari, Soroush Faridan-Jahromi, Zeinab Kouhkan, Azadeh Amirak
FarsTail : Un jeu de données inférence linguistique naturelle en persan
Résumé

L'inférence sur le langage naturel (NLI) est considérée comme l'une des tâches centrales du traitement automatique du langage (NLP), incarnant de nombreux aspects fondamentaux de la compréhension du langage. À la suite des progrès considérables des méthodes d'apprentissage profond, qui nécessitent de grandes quantités de données, dans les tâches NLP, d'importants efforts ont été déployés pour développer des jeux de données plus variés pour différentes langues. Dans cet article, nous présentons un nouveau jeu de données pour la tâche de NLI en langue persane, également connue sous le nom de farsi, l'une des langues dominantes au Moyen-Orient. Ce jeu de données, baptisé FarsTail, comprend 10 367 échantillons, fournis à la fois en persan et dans un format indexé afin de faciliter leur utilisation par des chercheurs non spécialistes de cette langue. Les échantillons ont été générés à partir de 3 539 questions à choix multiples, avec un minimum d'interventions des annotateurs, selon une approche similaire à celle du jeu de données SciTail. Un processus multi-étapes soigneusement conçu a été mis en œuvre pour garantir la qualité du jeu de données. Nous présentons également les résultats obtenus par des méthodes classiques et de pointe sur FarsTail, incluant différentes approches d'embedding telles que word2vec, fastText, ELMo, BERT et LASER, ainsi que diverses méthodologies de modélisation comme DecompAtt, ESIM, HBMP et ULMFiT, afin de fournir une base solide pour les recherches futures. La meilleure précision obtenue sur le jeu de test atteint 83,38 %, ce qui indique qu'il reste une marge importante pour améliorer les méthodes actuelles afin qu'elles soient pertinentes pour les applications NLP du monde réel dans différentes langues. Nous étudions également dans quelle mesure les modèles exploitent des indices superficiels, également appelés biais du jeu de données, dans FarsTail, et nous divisons l'ensemble de test en sous-ensembles faciles et difficiles selon la performance des modèles biaisés. Le jeu de données est disponible à l'adresse suivante : https://github.com/dml-qom/FarsTail