il y a 3 mois

Résumé

L’apprentissage par renforcement (RL) offre un cadre rigoureux pour améliorer les modèles vision-langage (VLM) sur des tâches de raisonnement complexes. Toutefois, les approches de RL existantes reposent souvent sur des étiquettes annotées par des humains ou des heuristiques spécifiques à la tâche pour définir des récompenses vérifiables, deux solutions coûteuses et difficiles à mettre à l’échelle. Nous introduisons VisPlay, un cadre de RL auto-évoluant qui permet aux VLM d’améliorer de manière autonome leurs capacités de raisonnement à l’aide de grandes quantités de données d’images non étiquetées. À partir d’un seul modèle de base VLM, VisPlay attribue au modèle deux rôles interactifs : un Questionneur conditionné par l’image, chargé de formuler des questions visuelles exigeantes mais répondables, et un Raisonneur multimodal, chargé de générer des réponses « argent » (silver). Ces deux rôles sont entraînés conjointement via une optimisation de politique par rapport à un groupe (GRPO), qui intègre des récompenses de diversité et de difficulté afin d’équilibrer la complexité des questions générées avec la qualité des réponses « argent ». VisPlay s’écrit efficacement sur deux familles de modèles. Lorsqu’il est entraîné sur Qwen2.5-VL et MiMo-VL, VisPlay obtient des améliorations constantes en raisonnement visuel, en généralisation compositionnelle et en réduction des hallucinations sur huit benchmarks, notamment MM-Vet et MMMU, démontrant ainsi une voie évolutivement scalable vers une intelligence multimodale auto-évolutive. La page du projet est disponible à l’adresse suivante : https://bruno686.github.io/VisPlay/

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Apprentissage Par Renforcement

Multimodal

Réponse À Des Questions Visuelles

Approche/Framework

Multimodal

Tâche

Yicheng He Chengsong Huang Zongxia Li Jiaxin Huang Yonghui Yang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Apprentissage Par Renforcement

Multimodal

Réponse À Des Questions Visuelles

Approche/Framework

Multimodal

Tâche

Yicheng He Chengsong Huang Zongxia Li Jiaxin Huang Yonghui Yang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

VisPlay : Modèles Vision-Language auto-évoluant à partir d'images

Yicheng He Chengsong Huang Zongxia Li Jiaxin Huang Yonghui Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VisPlay : Modèles Vision-Language auto-évoluant à partir d'images

Yicheng He Chengsong Huang Zongxia Li Jiaxin Huang Yonghui Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VisPlay : Modèles Vision-Language auto-évoluant à partir d'images

Yicheng He Chengsong Huang Zongxia Li Jiaxin Huang Yonghui Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters