HyperAI
il y a 4 jours

ScaleCap : Inférence d'images à l'échelle via le débiaisage bimodal

Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
ScaleCap : Inférence d'images à l'échelle via le débiaisage bimodal
Résumé

Ce document présente ScaleCap, une stratégie de légendage d'images adaptable à l'exécution qui génère des légendes d'images complètes et détaillées. Les principaux défis du légendage d'images de haute qualité résident dans les biais inhérents des modèles à grande échelle multilingues (LVLM) : le biais multimodal entraînant une granularité descriptive inégale, offrant des descriptions détaillées de certains éléments tout en survolant rapidement d'autres ; le biais linguistique conduisant à des descriptions imaginaires d'objets inexistantes.Pour remédier à ces problèmes, nous proposons une stratégie de légendage débiaisé et adaptable, qui enrichit et calibre continuellement la légende avec un budget d'exécution accru. Plus précisément, nous introduisons deux composants novateurs : la réponse heuristique aux questions et l'évaluation contrastive des phrases. Le premier génère des questions spécifiques au contenu basées sur l'image et y répond pour injecter progressivement des informations pertinentes dans la légende. Le second utilise un décodage contrastif hors ligne au niveau des phrases pour identifier efficacement et éliminer les hallucinations causées par les biais linguistiques.Avec un coût d'exécution plus élevé, ScaleCap pose davantage de questions heuristiques pour capturer progressivement des détails visuels supplémentaires, générant ainsi des légendes plus précises, équilibrées et informatives. Des expériences extensives d'alignement modal montrent l'efficacité de ScaleCap. L'annotation de 450 000 images avec ScaleCap et leur utilisation pour le pré-entraînement des modèles à grande échelle multilingues (LVLM) entraîne des gains de performance constants sur 11 benchmarks largement utilisés. De plus, ScaleCap démontre une richesse et une fidélité exceptionnelles des légendes générées grâce à deux tâches supplémentaires : remplacer les images par des légendes dans la tâche VQA (Visual Question Answering), et reconstruire les images à partir des légendes pour évaluer la couverture sémantique.Le code est disponible sur https://github.com/Cooperx521/ScaleCap.