Composition d'ensembles de modèles pré-entraînés par consensus itératif

Les grands modèles pré-entraînés présentent des capacités distinctes et complémentaires, dépendant des données sur lesquelles ils ont été entraînés. Les modèles linguistiques tels que GPT-3 sont capables de raisonnement textuel, mais ne comprennent pas l'information visuelle, tandis que les modèles visuels tels que DALL-E peuvent générer des images photoréalistes, mais échouent à interpréter des descriptions linguistiques complexes. Dans ce travail, nous proposons un cadre unifié pour composer des ensembles de modèles pré-entraînés différents — combinant les forces de chaque modèle individuel afin de résoudre divers problèmes multimodaux de manière zéro-shot. Nous utilisons les modèles pré-entraînés comme « générateurs » ou « évaluateurs », et les combiner via une optimisation itérative par consensus en boucle fermée. Le générateur émet des propositions, tandis que les évaluateurs fournissent itérativement des retours pour affiner le résultat généré. Cette communication en boucle fermée permet aux modèles de corriger les erreurs causées par d'autres modèles, améliorant significativement les performances sur des tâches en aval, par exemple en augmentant de 7,5 % la précision sur des problèmes mathématiques du primaire, sans nécessiter de fine-tuning des modèles. Nous démontrons que le consensus atteint par un ensemble d’évaluateurs surpasse les retours fournis par un seul évaluateur, en exploitant pleinement les forces de chaque modèle expert. Les résultats montrent que la méthode proposée peut servir de cadre généralisable pour une large gamme de tâches multimodales zéro-shot, telles que la génération d’images, la question-réponse vidéo, le raisonnement mathématique et la manipulation robotique. Page du projet : https://energy-based-model.github.io/composing-pretrained-models.