HyperAIHyperAI

Command Palette

Search for a command to run...

MMICL: Vision-Sprache-Modelle mit Multi-Modaler In-Context-Lernung stärken

Haozhe Zhao Zefan Cai Shuzheng Si Xiaojian Ma Kaikai An Liang Chen Zixuan Liu Sheng Wang Wenjuan Han Baobao Chang

Zusammenfassung

Seit dem Aufschwung der tiefen Lernverfahren sind vision-sprachliche Modelle (VLMs), die durch große Sprachmodelle (LLMs) verbessert wurden, exponentiell an Beliebtheit gewachsen. Während LLMs dank des In-Context-Lernens umfangreiches Hintergrundwissen und Aufgabeninformationen nutzen können, leiden die meisten VLMs weiterhin unter Schwierigkeiten bei der Verarbeitung komplexer multimodaler Eingaben mit mehreren Bildern, was ihre Effektivität bei nachgeschalteten vision-sprachlichen Aufgaben einschränkt. In diesem Paper adressieren wir diese Einschränkung durch drei zentrale Beiträge: 1) die Einführung eines neuen Ansatzes namens Vision-Language Model mit Multi-Modal In-Context Learning (MMICL), der es dem VLM ermöglicht, multimodale Eingaben effizient zu verarbeiten; 2) die Proposals einer neuartigen Kontextstruktur zur Verbesserung der In-Context-Lernfähigkeit des VLMs; 3) die Konstruktion der Multi-Modal In-Context Learning (MIC)-Datenbank, die speziell darauf abzielt, die Fähigkeit des VLMs zur Verständnis komplexer multimodaler Eingaben zu stärken. Unsere Experimente bestätigen, dass MMICL neue SOTA-Ergebnisse im zero-shot-Modus auf einer Vielzahl allgemeiner vision-sprachlicher Aufgaben erzielt, insbesondere bei anspruchsvollen Benchmarks wie MME und MMBench. Unsere Analyse zeigt, dass MMICL die Herausforderung des Verständnisses komplexer multimodaler Eingaben effektiv bewältigt und eine beeindruckende In-Context-Lernfähigkeit hervorbringt. Darüber hinaus stellen wir fest, dass MMICL die Sprachverzerrung in VLMs erfolgreich reduziert – ein häufiges Problem, das zu Halluzinationen führt, wenn VLMs mit umfangreichen textuellen Kontexten konfrontiert werden. Unser Code, die Datensammlung, das Datentool und das Modell sind unter https://github.com/PKUnlp-icler/MIC verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MMICL: Vision-Sprache-Modelle mit Multi-Modaler In-Context-Lernung stärken | Paper | HyperAI