HyperAIHyperAI
vor 11 Tagen

GLIPv2: Vereinheitlichung von Lokalisierung und visuell-sprachlichem Verständnis

Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian Harold Li, Xiyang Dai, Lijuan Wang, Lu Yuan, Jenq-Neng Hwang, Jianfeng Gao
GLIPv2: Vereinheitlichung von Lokalisierung und visuell-sprachlichem Verständnis
Abstract

Wir präsentieren GLIPv2, ein kontextbasiertes multimodales Verständnismodell, das sowohl Lokalisierungsaufgaben (z. B. Objektdetektion, Instanzsegmentierung) als auch Aufgaben des Vision-Language (VL)-Verständnisses (z. B. VQA, Bildbeschreibung) bearbeiten kann. GLIPv2 vereint elegant die Vorbildung für Lokalisierung und die Vision-Language-Vorbildung (VLP) durch drei Vorbildungsaufgaben: die Phrasen-Grundlage als VL-Formulierung der Detektionsaufgabe, die regionenwortbasierte kontrastive Lernung als neuartige kontrastive Lernaufgabe auf Region-Wort-Ebene sowie die maskierte Sprachmodellierung. Diese Vereinigung vereinfacht nicht nur den bisherigen mehrstufigen VLP-Prozess, sondern ermöglicht auch gegenseitige Vorteile zwischen Lokalisierungs- und Verständnisaufgaben. Experimentelle Ergebnisse zeigen, dass ein einzelnes GLIPv2-Modell (bei dem alle Modellgewichte gemeinsam genutzt werden) nahezu state-of-the-art (SoTA)-Leistung auf verschiedenen Lokalisierungs- und Verständnisaufgaben erzielt. Zudem zeigt das Modell (1) starke Zero-shot- und Few-shot-Anpassungsfähigkeit bei offenen-Vokabular-Objektdetektionsaufgaben und (2) herausragende Grundierungsfähigkeiten bei VL-Verständnisaufgaben. Der Quellcode wird unter https://github.com/microsoft/GLIP veröffentlicht werden.

GLIPv2: Vereinheitlichung von Lokalisierung und visuell-sprachlichem Verständnis | Neueste Forschungsarbeiten | HyperAI