HyperAIHyperAI

Command Palette

Search for a command to run...

PreFLMR : Augmenter à grande échelle les récupérateurs multimodaux à interaction tardive fine-grainée

Weizhe Lin Jingbiao Mei Jinghong Chen Bill Byrne

Résumé

Les grands modèles multimodaux (LMMs) se distinguent par leur capacité à comprendre le langage naturel et les contenus visuels, mais rencontrent des difficultés face à des tâches exigeantes telles que la réponse à des questions visuelles fondée sur des connaissances (KB-VQA), qui nécessitent la récupération d'informations pertinentes à partir de collections de documents afin de formuler des réponses précises aux questions posées. Nous présentons un cadre d'entraînement et d'évaluation approfondi, nommé M2KR, dédié à la KB-VQA. M2KR regroupe une série de tâches visuelles et linguistiques que nous avons intégrées dans un ensemble unique de tâches de benchmark, destiné à l'entraînement et à l'évaluation de récupérateurs multimodaux polyvalents. À l'aide de M2KR, nous avons développé PreFLMR, une version préentraînée de l'approche récente du récupérateur multimodal à interaction tardive fine (FLMR) pour la KB-VQA, et nous rapportons de nouveaux résultats de pointe sur diverses tâches. Nous présentons également des études sur les comportements d'échelle de PreFLMR, destinées à guider les progrès futurs dans le domaine des récupérateurs multimodaux généraux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp