HyperAIHyperAI
il y a 11 jours

SimVLM : Préentraînement d'un modèle visuel-langagier simple avec une supervision faible

Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, Yuan Cao
SimVLM : Préentraînement d'un modèle visuel-langagier simple avec une supervision faible
Résumé

Grâce aux progrès récents dans la modélisation conjointe des représentations visuelles et textuelles, le préentraînement vision-langage (VLP) a atteint des performances remarquables sur de nombreuses tâches multimodales en aval. Toutefois, la nécessité d’étiquetages coûteux, tels que des légendes d’images propres ou des étiquettes régionales, limite l’extensibilité des approches existantes et complique le processus de préentraînement par l’introduction de multiples objectifs spécifiques aux jeux de données. Dans ce travail, nous relâchons ces contraintes et proposons un cadre minimaliste de préentraînement, nommé Simple Visual Language Model (SimVLM). Contrairement aux travaux antérieurs, SimVLM réduit la complexité d’entraînement en exploitant une supervision faible à grande échelle, et est entraîné de manière end-to-end avec une seule objectif de modélisation de langage préfixe. Sans recourir à des données supplémentaires ni à une personnalisation spécifique aux tâches, le modèle obtenu surpasse significativement les méthodes préalables d’entraînement et atteint de nouveaux records sur une large gamme de benchmarks discriminatifs et génératifs en vision-langage, notamment VQA (+3,74 % de score VQA), NLVR2 (+1,17 % de précision), SNLI-VE (+1,37 % de précision) et les tâches de génération de légendes d’images (+10,1 % de score moyen CIDEr). En outre, nous démontrons que SimVLM acquiert une forte capacité de généralisation et de transfert, permettant des comportements en zéro-shot tels que la réponse à des questions ouvertes sur des images et le transfert entre modalités.

SimVLM : Préentraînement d'un modèle visuel-langagier simple avec une supervision faible | Articles de recherche récents | HyperAI