HyperAIHyperAI
vor 3 Monaten

REVEAL: Retrieval-Augmented Visual-Language Pre-Training mit Multi-Source Multimodal Knowledge Memory

Ziniu Hu, Ahmet Iscen, Chen Sun, Zirui Wang, Kai-Wei Chang, Yizhou Sun, Cordelia Schmid, David A. Ross, Alireza Fathi
REVEAL: Retrieval-Augmented Visual-Language Pre-Training mit Multi-Source Multimodal Knowledge Memory
Abstract

In diesem Artikel stellen wir ein end-to-end-rettendes, visuell-sprachliches Modell mit Erweiterung durch Wissensabfrage (REVEAL) vor, das lernt, Weltwissen in einem großskaligen Speicher zu kodieren und daraus relevante Informationen abzurufen, um fragenintensive Anfragen zu beantworten. REVEAL besteht aus vier zentralen Komponenten: dem Speicher, dem Encoder, dem Retriever und dem Generator. Der großskalige Speicher kodiert verschiedene Quellen multimodalen Weltwissens (z. B. Bild-Text-Paare, Frage-Antwort-Paare, Wissensgraphentripel usw.) mittels eines einheitlichen Encoders. Der Retriever identifiziert die relevantesten Wissenseinträge im Speicher, und der Generator kombiniert die abgerufenen Informationen mit der Eingabefrage, um die Ausgabe zu erzeugen. Ein zentrales Novum unseres Ansatzes ist, dass Speicher, Encoder, Retriever und Generator alle end-to-end auf einer riesigen Menge an Daten vortrainiert werden. Darüber hinaus kann unser Ansatz eine vielfältige Palette multimodaler Wissensquellen nutzen, was sich als besonders wirksam erweist. Wir zeigen, dass REVEAL state-of-the-art-Ergebnisse in der visuellen Fragebeantwortung und der Bildbeschreibung erreicht.