HyperAIHyperAI

Command Palette

Search for a command to run...

PreFLMR: Skalierung feinabgestimmter, spät-interagierender multimodaler Retriever

Weizhe Lin Jingbiao Mei Jinghong Chen Bill Byrne

Zusammenfassung

Große multimodale Modelle (LMMs) zeichnen sich durch hervorragende Fähigkeiten in der natürlichen Sprache und visuellen Wahrnehmung aus, stoßen jedoch bei anspruchsvollen Aufgaben wie der knowledgebasierten visuellen Fragebeantwortung (KB-VQA) auf Schwierigkeiten. Diese Aufgaben erfordern die Abfrage relevanter Informationen aus Dokumentensammlungen, um fundierte Antworten auf Fragen zu generieren. Wir präsentieren einen umfassenden Trainings- und Evaluierungsrahmen, M2KR, für KB-VQA. M2KR umfasst eine Sammlung von Aufgaben aus den Bereichen Vision und Sprache, die wir in eine einheitliche Suite von Benchmark-Aufgaben für das Training und die Evaluation allgemeiner multimodaler Retriever integriert haben. Mittels M2KR entwickeln wir PreFLMR, eine vortrainierte Variante des kürzlich vorgestellten Fine-grained Late-interaction Multi-modal Retriever (FLMR)-Ansatzes für KB-VQA, und berichten über neue state-of-the-art-Ergebnisse auf einer Vielzahl von Aufgaben. Zudem führen wir Untersuchungen zur Skalierungseigenschaften von PreFLMR durch, die künftige Entwicklungen allgemeiner multimodaler Retriever unterstützen sollen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp