HyperAIHyperAI

Command Palette

Search for a command to run...

REVEAL: Retrieval-Augmented Visual-Language Pre-Training mit Multi-Source Multimodal Knowledge Memory

Ziniu Hu Ahmet Iscen Chen Sun Zirui Wang Kai-Wei Chang Yizhou Sun Cordelia Schmid David A. Ross Alireza Fathi

Zusammenfassung

In diesem Artikel stellen wir ein end-to-end-rettendes, visuell-sprachliches Modell mit Erweiterung durch Wissensabfrage (REVEAL) vor, das lernt, Weltwissen in einem großskaligen Speicher zu kodieren und daraus relevante Informationen abzurufen, um fragenintensive Anfragen zu beantworten. REVEAL besteht aus vier zentralen Komponenten: dem Speicher, dem Encoder, dem Retriever und dem Generator. Der großskalige Speicher kodiert verschiedene Quellen multimodalen Weltwissens (z. B. Bild-Text-Paare, Frage-Antwort-Paare, Wissensgraphentripel usw.) mittels eines einheitlichen Encoders. Der Retriever identifiziert die relevantesten Wissenseinträge im Speicher, und der Generator kombiniert die abgerufenen Informationen mit der Eingabefrage, um die Ausgabe zu erzeugen. Ein zentrales Novum unseres Ansatzes ist, dass Speicher, Encoder, Retriever und Generator alle end-to-end auf einer riesigen Menge an Daten vortrainiert werden. Darüber hinaus kann unser Ansatz eine vielfältige Palette multimodaler Wissensquellen nutzen, was sich als besonders wirksam erweist. Wir zeigen, dass REVEAL state-of-the-art-Ergebnisse in der visuellen Fragebeantwortung und der Bildbeschreibung erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp