Command Palette
Search for a command to run...
CapRL : Stimuler les capacités de captioning d'images denses par apprentissage par renforcement
Long Xing Xiaoyi Dong Yuhang Zang Yuhang Cao Jianze Liang Qidong Huang Jiaqi Wang Feng Wu Dahua Lin

Résumé
L’annotation d’images est une tâche fondamentale qui relie les domaines visuels et linguistiques, jouant un rôle crucial dans le pré-entraînement des grands modèles vision-langage (LVLM). Les modèles d’annotation d’images les plus performants actuellement sont généralement entraînés par une mise au point supervisée (SFT), un paradigme qui repose sur des données coûteuses, non évolutives, annotées par des humains ou par des modèles propriétaires. Cette approche conduit souvent à des modèles qui mémorisent des réponses précises, limitant ainsi leur généralisation et leur capacité à produire des descriptions variées et créatives. Pour surmonter les limites du SFT, nous proposons d’appliquer le paradigme de l’apprentissage par renforcement avec récompenses vérifiables (RLVR) à la tâche ouverte d’annotation d’images. Un défi majeur réside toutefois dans la conception d’une fonction de récompense objective pour une tâche intrinsèquement subjective, comme celle de définir ce qu’est une « bonne » annotation. Nous introduisons CapRL, un cadre d’entraînement novateur qui redéfinit la qualité d’une annotation par son utilité : une bonne annotation doit permettre à un modèle linguistique sans accès visuel de répondre avec précision à des questions concernant l’image correspondante. CapRL repose sur une architecture en deux étapes déconnectées : un LVLM génère une annotation, tandis que la récompense objective est dérivée de la précision d’un modèle linguistique indépendant, privé de vision, dans la réponse à des questions à choix multiples fondées uniquement sur cette annotation. En tant que première étude à appliquer le RLVR à la tâche subjective d’annotation d’images, nous démontrons que CapRL améliore significativement les performances dans plusieurs configurations. L’entraînement préalable sur le jeu de données CapRL-5M, annoté par CapRL-3B, conduit à des gains substantiels sur 12 benchmarks. En outre, dans le cadre d’évaluation de qualité d’annotation Prism, CapRL atteint des performances comparables à celles de Qwen2.5-VL-72B, tout en dépassant la ligne de base en moyenne de 8,4 %.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.