HyperAIHyperAI

Command Palette

Search for a command to run...

CapRL Décrit l'apprentissage Par Renforcement

Date

il y a 2 mois

Organization

L'Université chinoise de Hong Kong
Université des sciences et technologies de Chine
Laboratoire d'intelligence artificielle de Shanghai

Paper URL

2509.22647

CapRL a été proposé en septembre 2025 par une équipe de recherche de l'Université des sciences et technologies de Chine, de l'Université chinoise de Hong Kong et du Laboratoire d'intelligence artificielle de Shanghai, entre autres institutions. Les résultats de cette recherche ont été publiés dans l'article « ... ».CapRL : Stimuler les capacités de légende d'images denses grâce à l'apprentissage par renforcement".

CapRL est un nouveau cadre d'entraînement qui redéfinit la qualité des descriptions par son aspect pratique : des descriptions de haute qualité doivent permettre aux modèles de langage non visuels de répondre avec précision aux questions concernant l'image correspondante. Il utilise un processus découplé en deux étapes : un grand modèle de langage visuel (LVLM) génère la description, tandis que la récompense objective est basée sur la précision d'un autre grand modèle de langage non visuel (LLM) à répondre à des questions à choix multiples fondées sur cette description. Pré-entraîné sur l'ensemble de données de descriptions CapRL-5M annoté avec CapRL-3B, CapRL obtient des améliorations significatives sur 12 benchmarks. De plus, dans le cadre Prism d'évaluation de la qualité des descriptions, ses performances sont comparables à celles de Qwen2.5-VL-72B, surpassant la référence de 8,41 points TP3T en moyenne.

Méthode CapRL

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp