HyperAIHyperAI

Command Palette

Search for a command to run...

Adaptation transitoire de modèles pré-entraînés pour le récit visuel

Gunhee Kim Jongseok Kim Heeseung Yun Jiwan Chung Youngjae Yu

Résumé

Les modèles précédents pour les tâches de génération de langage à partir de la vision préentraînent généralement un encodeur visuel et un générateur de langage dans leurs domaines respectifs, puis les ajustent conjointement sur la tâche cible. Toutefois, cette approche de transfert direct peut souffrir d’un désaccord entre la spécificité visuelle et la fluidité linguistique, car ces deux composants sont souvent entraînés séparément sur de grandes corpora de données visuelles et textuelles, sans point de convergence commun. Dans ce travail, nous affirmons qu’une étape d’adaptation transitoire est nécessaire entre le préentraînement et l’ajustement fin pour harmoniser l’encodeur visuel et le modèle de langage afin de relever des tâches cibles complexes, telles que le récit visuel. Nous proposons une nouvelle approche nommée Adaptation Transitoire des Modèles Préentraînés (TAPM), qui adapte mutuellement les modules multimodaux à l’aide d’une tâche d’alignement simplifiée basée uniquement sur les entrées visuelles, sans nécessiter d’étiquettes textuelles. À travers des expériences étendues, nous démontrons que cette étape d’adaptation améliore significativement les performances de plusieurs modèles de langage sur des tâches de génération de légendes séquentielles pour vidéos et images. Nous atteignons de nouveaux résultats optimaux (state-of-the-art) tant sur les métriques linguistiques que sur l’évaluation humaine dans la tâche de description multi-phrases du LSMDC 2019 et dans la tâche de récit d’images du VIST. Nos expériences révèlent que cette amélioration de la qualité des légendes ne dépend pas du choix spécifique du modèle de langage utilisé.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp