HyperAIHyperAI
vor 3 Monaten

MMICL: Vision-Sprache-Modelle mit Multi-Modaler In-Context-Lernung stärken

Haozhe Zhao, Zefan Cai, Shuzheng Si, Xiaojian Ma, Kaikai An, Liang Chen, Zixuan Liu, Sheng Wang, Wenjuan Han, Baobao Chang
MMICL: Vision-Sprache-Modelle mit Multi-Modaler In-Context-Lernung stärken
Abstract

Seit dem Aufschwung der tiefen Lernverfahren sind vision-sprachliche Modelle (VLMs), die durch große Sprachmodelle (LLMs) verbessert wurden, exponentiell an Beliebtheit gewachsen. Während LLMs dank des In-Context-Lernens umfangreiches Hintergrundwissen und Aufgabeninformationen nutzen können, leiden die meisten VLMs weiterhin unter Schwierigkeiten bei der Verarbeitung komplexer multimodaler Eingaben mit mehreren Bildern, was ihre Effektivität bei nachgeschalteten vision-sprachlichen Aufgaben einschränkt. In diesem Paper adressieren wir diese Einschränkung durch drei zentrale Beiträge: 1) die Einführung eines neuen Ansatzes namens Vision-Language Model mit Multi-Modal In-Context Learning (MMICL), der es dem VLM ermöglicht, multimodale Eingaben effizient zu verarbeiten; 2) die Proposals einer neuartigen Kontextstruktur zur Verbesserung der In-Context-Lernfähigkeit des VLMs; 3) die Konstruktion der Multi-Modal In-Context Learning (MIC)-Datenbank, die speziell darauf abzielt, die Fähigkeit des VLMs zur Verständnis komplexer multimodaler Eingaben zu stärken. Unsere Experimente bestätigen, dass MMICL neue SOTA-Ergebnisse im zero-shot-Modus auf einer Vielzahl allgemeiner vision-sprachlicher Aufgaben erzielt, insbesondere bei anspruchsvollen Benchmarks wie MME und MMBench. Unsere Analyse zeigt, dass MMICL die Herausforderung des Verständnisses komplexer multimodaler Eingaben effektiv bewältigt und eine beeindruckende In-Context-Lernfähigkeit hervorbringt. Darüber hinaus stellen wir fest, dass MMICL die Sprachverzerrung in VLMs erfolgreich reduziert – ein häufiges Problem, das zu Halluzinationen führt, wenn VLMs mit umfangreichen textuellen Kontexten konfrontiert werden. Unser Code, die Datensammlung, das Datentool und das Modell sind unter https://github.com/PKUnlp-icler/MIC verfügbar.