Command Palette
Search for a command to run...
ControlCap : Captioning contrôlable au niveau des régions
ControlCap : Captioning contrôlable au niveau des régions
Yuzhong Zhao Yue Liu Zonghao Guo Weijia Wu Chen Gong Fang Wan Qixiang Ye
Résumé
La génération de légendes au niveau des régions est entravée par le problème de dégénérescence des légendes, qui se caractérise par le fait que les modèles multimodaux pré-entraînés ont tendance à produire les légendes les plus fréquentes tout en ignorant celles qui sont moins fréquentes. Dans cette étude, nous proposons une approche contrôlable de génération de légendes au niveau des régions, appelée ControlCap, qui introduit des mots de contrôle dans un modèle multimodal afin de surmonter ce problème. Plus précisément, ControlCap utilise un module discriminatif pour générer des mots de contrôle dans l’espace des légendes, permettant ainsi de partitionner cet espace en plusieurs sous-espaces. Le modèle multimodal est contraint de produire des légendes dans un petit nombre de sous-espaces contenant les mots de contrôle, ce qui augmente la probabilité d’atteindre des légendes moins fréquentes, atténuant ainsi le phénomène de dégénérescence. En outre, les mots de contrôle peuvent être fournis de manière interactive par un humain ou un modèle expert, ce qui permet de générer des légendes au-delà de l’espace des légendes d’entraînement, améliorant ainsi la capacité de généralisation du modèle. Des expériences étendues sur les jeux de données Visual Genome et RefCOCOg montrent que ControlCap améliore respectivement le score CIDEr de 21,6 et 2,2, surpassant de manière significative les méthodes de pointe. Le code est disponible à l’adresse suivante : https://github.com/callsys/ControlCap.