Les Modèles de Langage sont des Interfaces Générales à Usage Général

Les modèles fondamentaux ont suscité un vif intérêt en raison de leur efficacité dans un large éventail d’applications downstream. Bien qu’il existe une convergence importante en termes d’architecture, la plupart des modèles préentraînés sont encore développés pour des tâches ou des modalités spécifiques. Dans ce travail, nous proposons d’utiliser des modèles linguistiques comme une interface universelle pour divers modèles fondamentaux. Un ensemble de encodeurs préentraînés perçoit différentes modalités (telles que la vision et le langage), qui sont ensuite connectés à un modèle linguistique agissant comme couche de tâche universelle. Nous introduisons une objectif de modélisation linguistique semi-causale pour entraîner conjointement l’interface et les encodeurs modulaires. Cette approche combine les avantages et les capacités des modélisations causales et non causales, offrant ainsi le meilleur des deux mondes. Plus précisément, la méthode proposée hérite non seulement des capacités d’apprentissage in-context et de génération ouverte des modèles linguistiques causaux, mais elle favorise également le fine-tuning grâce à l’usage d’encodeurs bidirectionnels. Plus important encore, notre approche permet de combiner de manière fluide ces capacités, par exemple en permettant l’apprentissage in-context ou le suivi d’instructions avec des encodeurs fine-tunés. Les résultats expérimentaux sur diverses évaluations linguistiques uniquement et vision-langage montrent que notre modèle dépasse ou est compétitif par rapport aux modèles spécialisés en termes de fine-tuning, de généralisation zéro-shot et d’apprentissage en peu d’exemples.