Command Palette
Search for a command to run...
MMICL: Vision-Sprache-Modelle mit Multi-Modaler In-Context-Lernung stärken
MMICL: Vision-Sprache-Modelle mit Multi-Modaler In-Context-Lernung stärken
Haozhe Zhao Zefan Cai Shuzheng Si Xiaojian Ma Kaikai An Liang Chen Zixuan Liu Sheng Wang Wenjuan Han Baobao Chang
Zusammenfassung
Seit dem Aufschwung der tiefen Lernverfahren sind vision-sprachliche Modelle (VLMs), die durch große Sprachmodelle (LLMs) verbessert wurden, exponentiell an Beliebtheit gewachsen. Während LLMs dank des In-Context-Lernens umfangreiches Hintergrundwissen und Aufgabeninformationen nutzen können, leiden die meisten VLMs weiterhin unter Schwierigkeiten bei der Verarbeitung komplexer multimodaler Eingaben mit mehreren Bildern, was ihre Effektivität bei nachgeschalteten vision-sprachlichen Aufgaben einschränkt. In diesem Paper adressieren wir diese Einschränkung durch drei zentrale Beiträge: 1) die Einführung eines neuen Ansatzes namens Vision-Language Model mit Multi-Modal In-Context Learning (MMICL), der es dem VLM ermöglicht, multimodale Eingaben effizient zu verarbeiten; 2) die Proposals einer neuartigen Kontextstruktur zur Verbesserung der In-Context-Lernfähigkeit des VLMs; 3) die Konstruktion der Multi-Modal In-Context Learning (MIC)-Datenbank, die speziell darauf abzielt, die Fähigkeit des VLMs zur Verständnis komplexer multimodaler Eingaben zu stärken. Unsere Experimente bestätigen, dass MMICL neue SOTA-Ergebnisse im zero-shot-Modus auf einer Vielzahl allgemeiner vision-sprachlicher Aufgaben erzielt, insbesondere bei anspruchsvollen Benchmarks wie MME und MMBench. Unsere Analyse zeigt, dass MMICL die Herausforderung des Verständnisses komplexer multimodaler Eingaben effektiv bewältigt und eine beeindruckende In-Context-Lernfähigkeit hervorbringt. Darüber hinaus stellen wir fest, dass MMICL die Sprachverzerrung in VLMs erfolgreich reduziert – ein häufiges Problem, das zu Halluzinationen führt, wenn VLMs mit umfangreichen textuellen Kontexten konfrontiert werden. Unser Code, die Datensammlung, das Datentool und das Modell sind unter https://github.com/PKUnlp-icler/MIC verfügbar.