Qu’est-ce que les questions demandent exactement ? MFAE : Identification des questions en double grâce à une fusion multiple mettant l’accent sur la demande
L'identification des questions en double (DQI) améliore l'efficacité et la précision du traitement des systèmes de réponse aux questions à grande échelle dans les communautés et des systèmes automatisés de question-réponse. L'objectif de la tâche DQI est de déterminer si deux questions sont sémantiquement équivalentes. Toutefois, la distinction entre les synonymes ou les homonymes présents dans les paires de questions reste un défi. La plupart des travaux antérieurs se concentrent sur les différences sémantiques au niveau des mots ou des phrases. Nous proposons pour la première fois d’explorer l’accentuation de la question comme un facteur clé dans la DQI. L’accentuation de la question sert de pont entre l’équivalence sémantique de deux questions. Dans cet article, nous proposons un modèle d’attention basé sur une fusion multiple de l’accentuation de la question (MFAE) pour la DQI. Tout d’abord, BERT est utilisé pour obtenir des embeddings dynamiques pré-entraînés des mots. Ensuite, nous extrayons l’accentuation inter- et intra-question en sommant respectivement les attentes inter et les attentes auto. L'idée est que plus un mot interagit avec les autres, plus il est important. Enfin, nous utilisons huit combinaisons différentes pour générer une accentuation de question à fusion multiple ainsi qu’une représentation à fusion multiple des mots. Les résultats expérimentaux démontrent que notre modèle atteint des performances de pointe sur les jeux de données Quora Question Pairs et CQADupStack. En outre, notre modèle améliore également les résultats sur la tâche d'inférence sémantique naturelle (NLI) sur les jeux de données SNLI et MultiNLI. Le code est disponible à l'adresse suivante : https://github.com/rzhangpku/MFAE.