HyperAIHyperAI

Command Palette

Search for a command to run...

GLIPv2: Vereinheitlichung von Lokalisierung und visuell-sprachlichem Verständnis

Haotian Zhang Pengchuan Zhang Xiaowei Hu Yen-Chun Chen Liunian Harold Li Xiyang Dai Lijuan Wang Lu Yuan Jenq-Neng Hwang Jianfeng Gao

Zusammenfassung

Wir präsentieren GLIPv2, ein kontextbasiertes multimodales Verständnismodell, das sowohl Lokalisierungsaufgaben (z. B. Objektdetektion, Instanzsegmentierung) als auch Aufgaben des Vision-Language (VL)-Verständnisses (z. B. VQA, Bildbeschreibung) bearbeiten kann. GLIPv2 vereint elegant die Vorbildung für Lokalisierung und die Vision-Language-Vorbildung (VLP) durch drei Vorbildungsaufgaben: die Phrasen-Grundlage als VL-Formulierung der Detektionsaufgabe, die regionenwortbasierte kontrastive Lernung als neuartige kontrastive Lernaufgabe auf Region-Wort-Ebene sowie die maskierte Sprachmodellierung. Diese Vereinigung vereinfacht nicht nur den bisherigen mehrstufigen VLP-Prozess, sondern ermöglicht auch gegenseitige Vorteile zwischen Lokalisierungs- und Verständnisaufgaben. Experimentelle Ergebnisse zeigen, dass ein einzelnes GLIPv2-Modell (bei dem alle Modellgewichte gemeinsam genutzt werden) nahezu state-of-the-art (SoTA)-Leistung auf verschiedenen Lokalisierungs- und Verständnisaufgaben erzielt. Zudem zeigt das Modell (1) starke Zero-shot- und Few-shot-Anpassungsfähigkeit bei offenen-Vokabular-Objektdetektionsaufgaben und (2) herausragende Grundierungsfähigkeiten bei VL-Verständnisaufgaben. Der Quellcode wird unter https://github.com/microsoft/GLIP veröffentlicht werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GLIPv2: Vereinheitlichung von Lokalisierung und visuell-sprachlichem Verständnis | Paper | HyperAI