Argus : Une Nouvelle Méthode de Raisonnement Visuel Guidé par le Langage
ARGUS : Raisonnement Vision-Centré avec une Chaîne de Pensée Guidée Présentation du Projet et Contexte Les grands modèles linguistiques multimodaux (MLLM) actuels, largement alimentés par les progrès des grands modèles linguistiques (LLM), ont souvent des difficultés lorsqu'une perception visuelle précise et une compréhension des régions d'intérêt (RoIs) spécifiques sont nécessaires pour un raisonnement réussi. Le projet ARGUS propose une nouvelle mécanique de guidage de l'attention visuelle afin de surmonter ces limitations dans des scénarios centrés sur la vision. Inspiré de l'intelligence visuelle cognitive, ce cadre distingue l'attention visuelle stimulée (involontaire) et dirigée par des objectifs (volontaire). Il explore un module de réengagement de l'attention visuelle guidée par la chaîne de pensée (CoT) pour améliorer la qualité du raisonnement final. Architecture de ARGUS Écodeurs Visuels : ARGUS utilise une stratégie de Mélange d'Éxperts Visuels (MoVEs), combinant les sorties de trois modèles fondamentaux visuels différents : CLIP, ConvNeXt et EVA-02. Ces écodeurs sont essentiels pour abstraire les informations de l'image avec une perte minimale et aligner la vision et le langage. Les plongements 2D sont interpolés, concaténés, puis mapping vers l'espace des jetons texte par un projecteur MLP. Décodeur LLM : Un modèle LLM préentrainé de pointe, en l'occurrence Llama3–8B, est utilisé comme décodeur transformer pour prédire le prochain jeton. Échantillonnage de la Région d'Intérêt (RoI) : Le modèle peut prédire des boîtes englobantes correspondant aux régions mentionnées dans la question. Ces boîtes englobantes sont représentées sous forme de texte à l'aide de coordonnées normalisées ([xmin, ymin, xmax, ymax]). Réengagement du Contexte Visuel Dirigé Les boîtes englobantes prédites mettent en évidence le contexte visuel le plus pertinent. ARGUS examine quatre stratégies pour interagir avec ces RoIs : Attention Autonome Implicitement : La méthode de base, qui s'appuie sur l'attention auto-globale du LLM pour s'attarder sur le contexte visuel. Contrôle minimal sur les RoIs spécifiques. Guidance Implicite par Boîtes : La prédiction des boîtes englobantes comme jetons texte agit comme un signal CoT, implicitement orientant l'attention vers les RoIs sans réengagement visuel explicite. Réencodage Explicite des RoIs : Echantillonne la partie de l'image définie par la RoI et la traite à travers les écodeurs visuels pour générer un ensemble de nouveaux jetons visuels. Introduit explicitement des signaux contextuels spécifiques mais augmentent la complexité computationnelle. Nécessite une prétraitement (ajout de rembourrage, redimensionnement). Rééchantillonnage Explicite des RoIs : Au lieu de réencoder, cette méthode récupère les plongements visuels de l'étape de préencodage en fonction de leur chevauchement avec la boîte englobante de la RoI. Elle exploite les jetons mis en cache pour l'efficacité. Préserve également le contexte positionnel, potentiellement perdu lors du prétraitement de réencodage. Processus d'Entraînement L'entraînement de ARGUS se divise en deux étapes : Alignement et Pré-entraînement : Les écodeurs visuels et le projecteur MLP sont entraînés sur LLaVA-595K, tandis que le LLM est figé. Cette étape inclut un alignement préalable des experts en vision. Affinage Supervisé (SFT) : Le modèle complet (écodeurs visuels, projecteurs MLP, LLM) est affiné sur une combinaison diversifiée de datasets : Eagle1.8M (données conversationnelles), VCoT (annotations de boîtes englobantes de RoI) et des datasets de référence (GRIT, Shikra). Datasets Utilisés Stage 1 (Alignement et Pré-entraînement) : Utilisation du dataset LLaVA-595K, composé de paires image-texte ciblées. Stage 2 (Affinage Supervisé — SFT) : Eagle1.8M Dataset : Une collection complète de données conversationnelles issues de diverses sources. VCoT Dataset : Fournit des annotations de boîtes englobantes de RoI spécifiquement conçues pour les tâches de référencement et de raisonnement. Datasets de Référencement : Une combinaison de GRIT (756K paires image-texte ancrées) et Shikra (326K échantillons orientés vers le référencement visuel) pour améliorer la capacité du modèle à ancrer des concepts dans des situations non contraintes. Évaluation et Résultats ARGUS est évalué sur des tâches de raisonnement visuel et de référencement d'expressions. Les résultats sont remarquables : Raisonnement Visuel : Il atteint des performances de pointe parmi les MLLM publiques de taille et d'échelle comparables. Des améliorations significatives sont observées dans les tâches centrées sur la vision et la compréhension du texte, démontrant l'efficacité du mécanisme de recherche visuelle conditionnée par l'objectif et de l'attention. Référencement d'Expressions : ARGUS présente des performances de premier plan parmi les MLLM généralistes similaires et est compétitif avec les modèles spécialisés en référencement. Cela souligne sa capacité à raisonner à haut niveau et à localiser visuellement avec précision. Résultats Qualitatifs : Des exemples montrent ARGUS réussissant des tâches de raisonnement complexes grâce à des CoT ancrées visuellement. Études D'ablation et Analyse Des expériences contrôlées ont validé les choix de conception : Chaîne de Pensée et Référencement : L'intégration de la CoT améliore de manière constante les performances. Le réengagement visuel explicite (réencodage/rééchantillonnage) offre des gains plus importants que la guidance implicite par boxes. Stratégies de Réengagement : Le réencodage et le rééchantillonnage des RoIs surpassent les méthodes implicites. Le rééchantillonnage est généralement supérieur grâce à une meilleure conservation du contexte et moins de décalage de distribution, à l'exception des tâches nécessitant des détails fins d'objets petits (comme V-Star), où le réencodage s'exprime mieux. Capacité des Écodeurs : Des écodeurs visuels de plus grande capacité améliorent les performances. Le réencodage est moins dépendant de la qualité initiale des caractéristiques que le rééchantillonnage. Expansion du Contexte : Le réencodage bénéficie d'une légère expansion du contexte de la RoI (20–40%), aidant avec des box de précision moindre et le positionnement relatif. Le rééchantillonnage se distingue avec la taille originale de la boîte, car il exploite déjà les patchs chevauchants pour le contexte. Une expansion excessive nuise aux performances dans les deux cas. MLPs Non Partagés : L'utilisation de MLP séparés pour les jetons visuels initiaux et réengagés améliore légèrement les performances du rééchantillonnage en optimisant pour des distributions d'images/RoIs différentes. Efficacité Computationnelle : Le rééchantillonnage est nettement plus efficace computationnellement que le réencodage, nécessitant moins d'opérations et de jetons visuels supplémentaires, ce qui accélère l'inférence. Limitations et Perspectives Futures Les auteurs reconnaissent certaines limitations, notamment l'évaluation de l'approche sur des échelles de modèles plus grandes, la diversité limitée et la disponibilité de données visuelles CoT à grande échelle. Ils envisagent également d'étendre la couverture à des tâches telles que la détection ouverte au monde. Évaluation Professionnelle de l'Industrie et Profil de l'Entreprise ARGUS représente une avancée significative dans le domaine des modèles multimodaux. Ses innovations en matière de mécanismes d'attention visuelle guidés et de réengagement de RoIs offrent des solutions robustes aux défis courants de la perception et du raisonnement visuels. Les professionnels de l'IA apprécient particulièrement l'approche pragmatique du modèle, qui combine efficacement des éléments du traitement visuel et linguistique. La flexibilité de ARGUS dans l'usage de différents encoders visuels et son affinage supervisé sur des datasets variés le positionnent comme un modèle prometteur pour une multitude d'applications vision-langue, notamment dans les interactions conversationnelles et l'analyse d'images complexes. La société derrière ARGUS, spécialisée dans le développement de modèles IA multimodaux, poursuit activement la recherche pour améliorer les capacités de ses modèles. Leur expertise en alignment vision-langage et en optimisation de mécanismes d'attention renforce la crédibilité de ARGUS dans l'écosystème technologique actuel.
