HyperAI
il y a 12 jours

Projet AnyCap : Un cadre unifié, un jeu de données et un benchmark pour la légendisation omni-modale contrôlée

Yiming Ren, Zhiqiang Lin, Yu Li, Gao Meng, Weiyun Wang, Junjie Wang, Zicheng Lin, Jifeng Dai, Yujiu Yang, Wenhai Wang, Ruihang Chu
Projet AnyCap : Un cadre unifié, un jeu de données et un benchmark pour la légendisation omni-modale contrôlée
Résumé

La légendage contrôlable est essentiel pour une alignement précis des modalités multiples et le suivi d'instructions, mais les modèles existants manquent souvent de contrôle granulaire et de protocoles d'évaluation fiables. Pour combler cette lacune, nous présentons le Projet AnyCap, une solution intégrée englobant un modèle, un jeu de données et une évaluation. Nous introduisons AnyCapModel (ACM), un cadre léger et prêt à l'emploi qui améliore la contrôlabilité des modèles fondamentaux existants pour la légendage omni-modale sans retraîner le modèle de base. ACM réutilise les légendes originales provenant des modèles de base tout en intégrant les instructions utilisateur et les caractéristiques modales pour générer des légendes améliorées. Pour remédier à la pénurie de données dans le domaine du légendage contrôlable multi-modal, nous avons créé AnyCapDataset (ACD), couvrant trois modalités, 28 types d'instructions utilisateur et 300\,000 entrées de données de haute qualité. Nous proposons également AnyCapEval, un nouveau benchmark offrant des métriques d'évaluation plus fiables pour le légendage contrôlable en dissociant la précision du contenu et la fidélité stylistique. ACM améliore considérablement la qualité des légendes sur une gamme variée de modèles de base selon AnyCapEval. Notamment, ACM-8B augmente les scores de contenu de GPT-4o par 45\% et ceux de style par 12\%, tout en réalisant des gains substantiels sur des benchmarks largement utilisés tels que MIA-Bench et VidCapBench.