Ajustement de grands modèles multimodaux pour les vidéos à l'aide de l'apprentissage par renforcement basé sur les retours d'IA

Les récentes avancées dans les grands modèles de langage ont influencé le développement des grands modèles multimodaux vidéo (VLMMs). Les approches précédentes pour les VLMMs impliquaient un ajustement supervisé (SFT) avec des jeux de données d'instructions, l'intégration des grands modèles de langage avec des encodeurs visuels, et l'ajout de modules apprenables supplémentaires. L'alignement multimodal entre la vidéo et le texte reste un défi, principalement en raison du volume et de la qualité insuffisants des données d'instructions multimodales par rapport aux données textuelles uniquement. Nous présentons une nouvelle stratégie d'alignement qui utilise un système d'IA multimodal pour se surveiller lui-même, appelée Apprentissage par renforcement à partir du retour d'information de l'IA (RLAIF), fournissant un retour d'information auto-préférentiel pour affiner sa propre performance et faciliter l'alignement des modalités vidéo et texte. Plus précisément, nous proposons un modèle de récompense contextuel en fournissant des descriptions détaillées de vidéos comme contexte lors de la génération du retour d'information préférentiel afin d'enrichir la compréhension du contenu vidéo. Notre approche multimodale RLAIF, VLM-RLAIF, montre une performance améliorée sur diverses benchmarks vidéo, surpassant les approches existantes, y compris le modèle SFT. Nous nous engageons à rendre notre code, nos modèles et nos jeux de données open source pour favoriser davantage la recherche dans ce domaine.