HyperAIHyperAI

Command Palette

Search for a command to run...

Projet AnyCap : Un cadre unifié, un jeu de données et un benchmark pour la légendisation omni-modale contrôlée

Résumé

La légendage contrôlable est essentiel pour une alignement précis des modalités multiples et le suivi d'instructions, mais les modèles existants manquent souvent de contrôle granulaire et de protocoles d'évaluation fiables. Pour combler cette lacune, nous présentons le Projet AnyCap, une solution intégrée englobant un modèle, un jeu de données et une évaluation. Nous introduisons AnyCapModel (ACM), un cadre léger et prêt à l'emploi qui améliore la contrôlabilité des modèles fondamentaux existants pour la légendage omni-modale sans retraîner le modèle de base. ACM réutilise les légendes originales provenant des modèles de base tout en intégrant les instructions utilisateur et les caractéristiques modales pour générer des légendes améliorées. Pour remédier à la pénurie de données dans le domaine du légendage contrôlable multi-modal, nous avons créé AnyCapDataset (ACD), couvrant trois modalités, 28 types d'instructions utilisateur et 300,000 entrées de données de haute qualité. Nous proposons également AnyCapEval, un nouveau benchmark offrant des métriques d'évaluation plus fiables pour le légendage contrôlable en dissociant la précision du contenu et la fidélité stylistique. ACM améliore considérablement la qualité des légendes sur une gamme variée de modèles de base selon AnyCapEval. Notamment, ACM-8B augmente les scores de contenu de GPT-4o par 45% et ceux de style par 12%, tout en réalisant des gains substantiels sur des benchmarks largement utilisés tels que MIA-Bench et VidCapBench.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Projet AnyCap : Un cadre unifié, un jeu de données et un benchmark pour la légendisation omni-modale contrôlée | Articles | HyperAI