HyperAIHyperAI

Command Palette

Search for a command to run...

ControlCap : Captioning contrôlable au niveau des régions

Yuzhong Zhao Yue Liu Zonghao Guo Weijia Wu Chen Gong Fang Wan Qixiang Ye

Résumé

La génération de légendes au niveau des régions est entravée par le problème de dégénérescence des légendes, qui se caractérise par le fait que les modèles multimodaux pré-entraînés ont tendance à produire les légendes les plus fréquentes tout en ignorant celles qui sont moins fréquentes. Dans cette étude, nous proposons une approche contrôlable de génération de légendes au niveau des régions, appelée ControlCap, qui introduit des mots de contrôle dans un modèle multimodal afin de surmonter ce problème. Plus précisément, ControlCap utilise un module discriminatif pour générer des mots de contrôle dans l’espace des légendes, permettant ainsi de partitionner cet espace en plusieurs sous-espaces. Le modèle multimodal est contraint de produire des légendes dans un petit nombre de sous-espaces contenant les mots de contrôle, ce qui augmente la probabilité d’atteindre des légendes moins fréquentes, atténuant ainsi le phénomène de dégénérescence. En outre, les mots de contrôle peuvent être fournis de manière interactive par un humain ou un modèle expert, ce qui permet de générer des légendes au-delà de l’espace des légendes d’entraînement, améliorant ainsi la capacité de généralisation du modèle. Des expériences étendues sur les jeux de données Visual Genome et RefCOCOg montrent que ControlCap améliore respectivement le score CIDEr de 21,6 et 2,2, surpassant de manière significative les méthodes de pointe. Le code est disponible à l’adresse suivante : https://github.com/callsys/ControlCap.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp