Question Answering Ouvert sur le Domaine par Méthode Variationnelle

Les modèles augmentés par récupération se sont avérés efficaces dans les tâches de traitement du langage naturel, mais peu de recherches ont été menées sur leur optimisation à l’aide de l’inférence variationnelle. Nous introduisons le cadre VOD (Variational Open-Domain), conçu pour l’entraînement et l’évaluation end-to-end des modèles augmentés par récupération, avec un accent porté sur la réponse à des questions dans un domaine ouvert et la modélisation linguistique. L’objectif VOD, une estimation auto-normalisée de la borne variationnelle de Rényi, approche la vraisemblance marginale de la tâche et est évalué à partir d’échantillons issus d’une distribution d’échantillonnage auxiliaire (récupérateur mis en cache et/ou postérieure approximative). Cette approche reste calculable, même lorsque les distributions de récupération sont définies sur de grandes corpora. Nous démontrons la polyvalence de VOD en entraînant des modèles BERT de taille standard composés d’un lecteur et d’un récupérateur sur des questions à choix multiples issues d’examen médical. Sur le jeu de données MedMCQA, nous surpassons le modèle Med-PaLM spécifiquement ajusté au domaine de +5,3 %, malgré l’utilisation de 2,500 fois moins de paramètres. Notre modèle augmenté par récupération, BioLinkBERT, atteint 62,9 % sur MedMCQA et 55,0 % sur MedQA-USMLE. Enfin, nous illustrons l’efficacité du composant récupérateur appris dans le cadre de la recherche sémantique médicale.