il y a 15 jours

Distillation multiscale auto-adaptative dynamique à partir d’un grand modèle multimodal pré-entraîné pour un apprentissage efficace de représentations cross-modales

Zhengyang Liang, Meiyu Liang, Wei Huang, Yawen Li, Zhe Xue

Résumé

Ces dernières années, les grands modèles multimodaux préentraînés ont suscité un intérêt croissant en raison de leurs performances exceptionnelles dans diverses applications multimodales. Toutefois, les ressources informatiques importantes et les jeux de données massifs nécessaires à leur entraînement posent des obstacles considérables à leur déploiement dans des environnements aux ressources informatiques limitées. Pour relever ce défi, nous proposons pour la première fois une nouvelle méthode de distillation multiscale auto-adaptative dynamique issue d’un modèle multimodal préentraîné de grande taille, visant un apprentissage efficace des représentations intermodales. Contrairement aux méthodes de distillation existantes, notre approche adopte une perspective multiscale, permettant d’extraire de manière structurée des connaissances du modèle préentraîné multimodal. Cela garantit que le modèle étudiant hérite d’une compréhension complète et nuancée des connaissances du modèle enseignant. Pour optimiser de manière équilibrée et efficace chaque perte de distillation, nous introduisons un nouvel élément : un équilibreur dynamique auto-adaptatif des pertes de distillation, qui élimine la nécessité d’ajustements manuels des poids des pertes et équilibre automatiquement chaque terme de perte durant le processus de distillation. Notre méthode simplifie les grands modèles multimodaux préentraînés en n’utilisant que leurs caractéristiques de sortie et les informations initiales au niveau des images, nécessitant des ressources informatiques minimales. Cette approche efficace s’adapte à diverses applications et permet le déploiement de technologies multimodales avancées même dans des environnements aux ressources limitées. Des expériences étendues démontrent que notre méthode préserve des performances élevées tout en réduisant significativement la complexité du modèle et les coûts d’entraînement. En outre, notre modèle étudiant distillé, qui utilise uniquement des informations au niveau des images, atteint des performances de pointe sur les tâches de récupération intermodale, dépassant ainsi les méthodes précédentes qui reposaient sur des informations au niveau des régions.