HyperAIHyperAI
il y a 17 jours

Récupération efficace de passages par hachage pour la réponse aux questions dans un domaine ouvert

Ikuya Yamada, Akari Asai, Hannaneh Hajishirzi
Récupération efficace de passages par hachage pour la réponse aux questions dans un domaine ouvert
Résumé

La plupart des systèmes d’analyse de questions ouvertes les plus avancés utilisent un modèle de récupération neuronal pour encoder les passages sous forme de vecteurs continus et les extraire à partir d’une source de connaissances. Toutefois, ces modèles de récupération nécessitent souvent une grande mémoire en raison de la taille massive de leur index de passages. Dans cet article, nous introduisons Binary Passage Retriever (BPR), un modèle de récupération neuronal à faible consommation mémoire qui intègre une technique d’apprentissage par hachage au modèle d’état de l’art Dense Passage Retriever (DPR), afin de représenter l’index de passages à l’aide de codes binaires compacts plutôt que de vecteurs continus. BPR est entraîné avec une objectif multi-tâches sur deux tâches : la génération efficace de candidats basée sur les codes binaires, et le réajustement précis basé sur les vecteurs continus. Comparé au DPR, BPR réduit considérablement la consommation mémoire, passant de 65 Go à 2 Go, sans perte de précision sur deux benchmarks standards de réponse à questions ouvertes : Natural Questions et TriviaQA. Notre code et les modèles entraînés sont disponibles à l’adresse suivante : https://github.com/studio-ousia/bpr.