HyperAIHyperAI

Command Palette

Search for a command to run...

Aucun paramètre laissé pour compte : comment la distillation et la taille du modèle influencent le retrieval zéro-shot

Guilherme Moraes Rosa Luiz Bonifacio Vitor Jeronymo Hugo Abonizio Marzieh Fadaee Roberto Lotufo Rodrigo Nogueira

Résumé

Des travaux récents ont montré que les modèles linguistiques distillés de petite taille constituent de solides concurrents par rapport à des modèles bien plus grands et plus lents dans une large gamme de tâches de recherche d'information. Cela a conduit à ce que les modèles distillés et denses, en raison de contraintes de latence, deviennent le choix privilégié pour le déploiement dans les applications réelles de recherche. Dans ce travail, nous remettons en question cette pratique en démontrant que le nombre de paramètres et l'interaction précoce entre la requête et le document jouent un rôle crucial dans la capacité de généralisation des modèles de recherche. Nos expériences montrent qu'une augmentation de la taille du modèle entraîne des gains marginaux sur des jeux de test intradomaines, mais des gains bien plus importants dans des domaines nouveaux, jamais rencontrés lors de l'entraînement fine-tuné. En outre, nous montrons que les modèles de reranking surpassent largement les modèles denses de taille similaire sur plusieurs tâches. Notre modèle de reranking le plus performant atteint l'état de l'art sur 12 des 18 jeux de données du Benchmark-IR (BEIR), dépassant l'ancien état de l'art de 3 points en moyenne. Enfin, nous confirmons qu'une efficacité intradomaine n'est pas un bon indicateur de l'efficacité en zéro-shot. Le code est disponible à l'adresse suivante : https://github.com/guilhermemr04/scaling-zero-shot-retrieval.git


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp