HyperAIHyperAI

Command Palette

Search for a command to run...

Entraînement des modèles vision-langage à partir de zéro

Les laboratoires de recherche en 2026 ne forment plus les modèles multimodaux à partir de zéro, car cela exige des ressources informatiques, des données et un temps de calcul prohibitifs, tout en produisant souvent des résultats inférieurs. La méthode standard consiste désormais à prendre des modèles de langage existants entraînés uniquement sur du texte et à leur affiner les capacités visuelles. Cette approche permet d'intégrer la vision de manière efficace sans sacrifier les connaissances préalables du modèle. L'architecture typique d'un modèle de vision-langage (VLM) repose sur trois composants principaux : un arrière-plan d'image, une couche d'adaptation et une couche de langage. L'arrière-plan, ou image backbone, convertit les pixels bruts en vecteurs d'embeddings. Bien que les réseaux de neurones convolutifs (CNN) aient été utilisés par le passé, les transformateurs de vision (ViT) sont aujourd'hui préférés pour leur évolutivité. Ces modèles divisent l'image en patches, traitent ces patches via des mécanismes d'attention bidirectionnelle et génèrent une séquence contextuelle de vecteurs. Pour éviter le surapprentissage sur des ensembles de données image-texte plus petits que les corpus d'entraînement initiaux, les poids du ViT sont généralement figés (gelés) durant le processus d'adaptation. La couche d'adaptation joue un rôle crucial en traduisant les embeddings visuels bruts en représentations compatibles avec le texte. Le Q-Former, introduit dans le papier BLIP-2, est une solution populaire pour cette tâche. Il s'agit d'un module basé sur des modèles BERT préentraînés, auquel on ajoute des couches d'attention croisée. L'objectif est de projeter les séquences d'images longues et non textuelles en une séquence plus courte et textuelle via des embeddings d'apprentissage appelés requêtes. Le processus alterne entre une auto-attention interne pour les requêtes et une attention croisée où les requêtes interagissent avec les embeddings figés du ViT. Cette structure permet au modèle d'apprendre à aligner les caractéristiques visuelles avec le contenu textuel. Plusieurs fonctions de perte peuvent être utilisées pour entraîner le Q-Former. La perte contrastive image-texte aligne les espaces d'embeddings globaux pour que les paires correspondantes soient proches. La perte d'appariement image-texte effectue une classification binaire pour vérifier la correspondance fine-grained. Enfin, la perte de génération oblige le modèle à prédire les mots d'une légende à partir des requêtes, forçant ainsi l'extraction de toutes les informations visuelles nécessaires. L'entraînement utilise souvent une combinaison de ces méthodes pour optimiser l'alignement entre les modalités. La couche de langage constitue l'étape finale. Elle consiste à intégrer les embeddings visuels adaptés dans un modèle de langage existant, tel que SmolLM2. Les embeddings générés par le Q-Former sont transformés par une couche MLP pour correspondre à la taille des embeddings textuels du modèle. Une séquence d'entrée spécifique est alors construite, incluant des consignes système, la requête de l'utilisateur, les tokens visuels et la réponse attendue. Pour rendre le processus accessible sur du matériel grand public, des adaptateurs Low-Rank (LoRA) sont insérés dans les couches d'attention du modèle de langage. Cela permet de mettre à jour seulement une fraction des paramètres, laissant le reste du modèle figé pour préserver sa connaissance du monde tout en lui apprenant à traiter les informations visuelles. Ainsi, le modèle peut comprendre et générer du texte en réponse au contenu d'une image.

Liens associés

Entraînement des modèles vision-langage à partir de zéro | Articles tendance | HyperAI