HyperAIHyperAI
vor 11 Tagen

PreFLMR: Skalierung feinabgestimmter, spät-interagierender multimodaler Retriever

Weizhe Lin, Jingbiao Mei, Jinghong Chen, Bill Byrne
PreFLMR: Skalierung feinabgestimmter, spät-interagierender multimodaler Retriever
Abstract

Große multimodale Modelle (LMMs) zeichnen sich durch hervorragende Fähigkeiten in der natürlichen Sprache und visuellen Wahrnehmung aus, stoßen jedoch bei anspruchsvollen Aufgaben wie der knowledgebasierten visuellen Fragebeantwortung (KB-VQA) auf Schwierigkeiten. Diese Aufgaben erfordern die Abfrage relevanter Informationen aus Dokumentensammlungen, um fundierte Antworten auf Fragen zu generieren. Wir präsentieren einen umfassenden Trainings- und Evaluierungsrahmen, M2KR, für KB-VQA. M2KR umfasst eine Sammlung von Aufgaben aus den Bereichen Vision und Sprache, die wir in eine einheitliche Suite von Benchmark-Aufgaben für das Training und die Evaluation allgemeiner multimodaler Retriever integriert haben. Mittels M2KR entwickeln wir PreFLMR, eine vortrainierte Variante des kürzlich vorgestellten Fine-grained Late-interaction Multi-modal Retriever (FLMR)-Ansatzes für KB-VQA, und berichten über neue state-of-the-art-Ergebnisse auf einer Vielzahl von Aufgaben. Zudem führen wir Untersuchungen zur Skalierungseigenschaften von PreFLMR durch, die künftige Entwicklungen allgemeiner multimodaler Retriever unterstützen sollen.

PreFLMR: Skalierung feinabgestimmter, spät-interagierender multimodaler Retriever | Neueste Forschungsarbeiten | HyperAI