HyperAIHyperAI
il y a 17 jours

Les grands encodateurs duals sont des récupérateurs généralisables

Jianmo Ni, Chen Qu, Jing Lu, Zhuyun Dai, Gustavo Hernández Ábrego, Ji Ma, Vincent Y. Zhao, Yi Luan, Keith B. Hall, Ming-Wei Chang, Yinfei Yang
Les grands encodateurs duals sont des récupérateurs généralisables
Résumé

Il a été démontré que les encodeurs doubles entraînés sur un domaine donné échouent souvent à généraliser à d'autres domaines dans le cadre de tâches de récupération. Une croyance répandue est que la couche d’entraînement (bottleneck) d’un encodeur double, où le score final est simplement le produit scalaire entre un vecteur de requête et un vecteur de passage, est trop limitée pour permettre aux encodeurs doubles d’être un modèle efficace de récupération pour la généralisation hors domaine. Dans cet article, nous remettons en question cette croyance en augmentant la taille du modèle d’encodeur double tout en maintenant la taille de l’embedding de la couche bottleneck fixe. Grâce à une formation en plusieurs étapes, il est surprenant de constater que l’augmentation de la taille du modèle entraîne une amélioration significative sur diverses tâches de récupération, en particulier pour la généralisation hors domaine. Les résultats expérimentaux montrent que nos encodeurs doubles, appelés GTR (Generalizable T5-based Dense Retriever), surpassent de manière significative ColBERT~\cite{khattab2020colbert} ainsi que les modèles existants à faible et haute densité sur le jeu de données BEIR~\cite{thakur2021beir}. Plus surprenant encore, notre étude d’ablation révèle que le GTR est très efficace en termes de données : il ne nécessite que 10 % des données supervisées de MS MARCO pour atteindre les meilleurs résultats en généralisation hors domaine. Tous les modèles GTR sont disponibles à l’adresse suivante : https://tfhub.dev/google/collections/gtr/1.

Les grands encodateurs duals sont des récupérateurs généralisables | Articles de recherche récents | HyperAI