vor 2 Monaten

CoCoT: Kontrastive Kette-von-Gedanken-Aufforderung für große multimodale Modelle mit mehreren Bildereingaben

Zhang, Daoan ; Yang, Junming ; Lyu, Hanjia ; Jin, Zijian ; Yao, Yuan ; Chen, Mingkai ; Luo, Jiebo

Abstract

Bei der Erforschung der Entwicklung der künstlichen allgemeinen Intelligenz (KAI) stellt die Interpretation und Verarbeitung von Informationen aus mehreren Bildereingaben eine wichtige Aufgabe für diese Modelle dar. Allerdings begegnen Large Multimodal Models (LMMs) in solchen Szenarien zwei Problemen: (1) einem Mangel an feingranularem Wahrnehmungsvermögen und (2) einer Tendenz, Informationen über mehrere Bilder zu vermischen. Wir untersuchen zunächst umfassend die Fähigkeit von LMMs, feingranulare visuelle Details bei der Bearbeitung von mehreren Eingabebildern wahrzunehmen. Die Forschung konzentriert sich auf zwei Aspekte: erstens, das Bild-zu-Bild-Matching (um zu evaluieren, ob LMMs effektiv relevante Bilder zuordnen können), und zweitens, das Mehrbild-zu-Text-Matching (um zu prüfen, ob LMMs detaillierte Bildinformationen korrekt erfassen und zusammenfassen können). Wir führen Bewertungen sowohl an offenen als auch an geschlossenen großen Modellen durch, darunter GPT-4V, Gemini, OpenFlamingo und MMICL. Um die Leistungsfähigkeit der Modelle zu verbessern, entwickeln wir außerdem einen kontrastiven Kette-des-Gedankens-Ansatz (Contrastive Chain-of-Thought, CoCoT) basierend auf Mehr-Eingabe-Multimodalmodellen. Diese Methode verlangt von den LMMs, Ähnlichkeiten und Unterschiede zwischen mehreren Bildereingaben zu vergleichen und dann die Modelle auf Grundlage der identifizierten Ähnlichkeiten und Unterschiede dazu anzuleiten, detaillierte Fragen zu Mehrbildereingaben zu beantworten. Unsere experimentellen Ergebnisse zeigen CoCoTs Effizienz bei der Steigerung der Mehrbildverstehensfähigkeiten großer Multimodalmodelle.