vor 6 Monaten

Zusammenfassung

Große multimodale Modelle (LMMs) zeichnen sich durch hervorragende Fähigkeiten in der natürlichen Sprache und visuellen Wahrnehmung aus, stoßen jedoch bei anspruchsvollen Aufgaben wie der knowledgebasierten visuellen Fragebeantwortung (KB-VQA) auf Schwierigkeiten. Diese Aufgaben erfordern die Abfrage relevanter Informationen aus Dokumentensammlungen, um fundierte Antworten auf Fragen zu generieren. Wir präsentieren einen umfassenden Trainings- und Evaluierungsrahmen, M2KR, für KB-VQA. M2KR umfasst eine Sammlung von Aufgaben aus den Bereichen Vision und Sprache, die wir in eine einheitliche Suite von Benchmark-Aufgaben für das Training und die Evaluation allgemeiner multimodaler Retriever integriert haben. Mittels M2KR entwickeln wir PreFLMR, eine vortrainierte Variante des kürzlich vorgestellten Fine-grained Late-interaction Multi-modal Retriever (FLMR)-Ansatzes für KB-VQA, und berichten über neue state-of-the-art-Ergebnisse auf einer Vielzahl von Aufgaben. Zudem führen wir Untersuchungen zur Skalierungseigenschaften von PreFLMR durch, die künftige Entwicklungen allgemeiner multimodaler Retriever unterstützen sollen.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Visuelle Dokumentenabfrage

Weizhe Lin Jingbiao Mei Jinghong Chen Bill Byrne

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Visuelle Dokumentenabfrage

Weizhe Lin Jingbiao Mei Jinghong Chen Bill Byrne

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

PreFLMR: Skalierung feinabgestimmter, spät-interagierender multimodaler Retriever

Weizhe Lin Jingbiao Mei Jinghong Chen Bill Byrne

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

PreFLMR: Skalierung feinabgestimmter, spät-interagierender multimodaler Retriever

Weizhe Lin Jingbiao Mei Jinghong Chen Bill Byrne

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

PreFLMR: Skalierung feinabgestimmter, spät-interagierender multimodaler Retriever

Weizhe Lin Jingbiao Mei Jinghong Chen Bill Byrne

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters