PreFLMR : Augmenter à grande échelle les récupérateurs multimodaux à interaction tardive fine-grainée

Les grands modèles multimodaux (LMMs) se distinguent par leur capacité à comprendre le langage naturel et les contenus visuels, mais rencontrent des difficultés face à des tâches exigeantes telles que la réponse à des questions visuelles fondée sur des connaissances (KB-VQA), qui nécessitent la récupération d'informations pertinentes à partir de collections de documents afin de formuler des réponses précises aux questions posées. Nous présentons un cadre d'entraînement et d'évaluation approfondi, nommé M2KR, dédié à la KB-VQA. M2KR regroupe une série de tâches visuelles et linguistiques que nous avons intégrées dans un ensemble unique de tâches de benchmark, destiné à l'entraînement et à l'évaluation de récupérateurs multimodaux polyvalents. À l'aide de M2KR, nous avons développé PreFLMR, une version préentraînée de l'approche récente du récupérateur multimodal à interaction tardive fine (FLMR) pour la KB-VQA, et nous rapportons de nouveaux résultats de pointe sur diverses tâches. Nous présentons également des études sur les comportements d'échelle de PreFLMR, destinées à guider les progrès futurs dans le domaine des récupérateurs multimodaux généraux.