FiE : Construction d’un espace de probabilité global en exploitant la fusion précoce dans l’encodeur pour la réponse à des questions dans un domaine ouvert

Les modèles génératifs ont récemment commencé à surpasser les modèles extratifs dans le domaine de la réponse à des questions ouvertes, principalement en exploitant leur décodeur pour effectuer une attention sur plusieurs passages encodés et en combinant leurs informations. Toutefois, les modèles génératifs sont généralement plus volumineux que les modèles extratifs en raison de la nécessité d’un décodeur, fonctionnent plus lentement lors de l’inférence en raison de la recherche par faisceau auto-régressive du décodeur, et leurs sorties générées souffrent fréquemment de hallucinations. Nous proposons d’étendre les encodeurs de type Transformer en leur conférant la capacité de fusionner l’information provenant de plusieurs passages, en utilisant une représentation globale pour fournir une attention croisée sur tous les tokens à travers les échantillons. En outre, nous proposons un calcul alternatif de la probabilité de l’intervalle de réponse, permettant une agrégation plus efficace des scores de réponse dans l’espace global de tous les échantillons. Grâce à notre méthode, nous surpassons l’état de l’art actuel d’un score Exact Match de 2,5 sur le jeu de données Natural Questions, tout en utilisant uniquement 25 % des paramètres et 35 % de la latence durant l’inférence, et de 4,4 sur WebQuestions. Lorsqu’elle est combinée à une augmentation de données synthétiques, notre approche surpasse également des modèles plus grands sur le jeu de données TriviaQA. Les économies de latence et de paramètres offertes par notre méthode s’avèrent particulièrement attractives pour la réponse à des questions ouvertes, domaine où les modèles sont souvent intensifs en calcul.