Aucun paramètre laissé pour compte : comment la distillation et la taille du modèle influencent le retrieval zéro-shot

Des travaux récents ont montré que les modèles linguistiques distillés de petite taille constituent de solides concurrents par rapport à des modèles bien plus grands et plus lents dans une large gamme de tâches de recherche d'information. Cela a conduit à ce que les modèles distillés et denses, en raison de contraintes de latence, deviennent le choix privilégié pour le déploiement dans les applications réelles de recherche. Dans ce travail, nous remettons en question cette pratique en démontrant que le nombre de paramètres et l'interaction précoce entre la requête et le document jouent un rôle crucial dans la capacité de généralisation des modèles de recherche. Nos expériences montrent qu'une augmentation de la taille du modèle entraîne des gains marginaux sur des jeux de test intradomaines, mais des gains bien plus importants dans des domaines nouveaux, jamais rencontrés lors de l'entraînement fine-tuné. En outre, nous montrons que les modèles de reranking surpassent largement les modèles denses de taille similaire sur plusieurs tâches. Notre modèle de reranking le plus performant atteint l'état de l'art sur 12 des 18 jeux de données du Benchmark-IR (BEIR), dépassant l'ancien état de l'art de 3 points en moyenne. Enfin, nous confirmons qu'une efficacité intradomaine n'est pas un bon indicateur de l'efficacité en zéro-shot. Le code est disponible à l'adresse suivante : https://github.com/guilhermemr04/scaling-zero-shot-retrieval.git