HyperAIHyperAI

Command Palette

Search for a command to run...

CoCoT: Kontrastive Kette-von-Gedanken-Aufforderung für große multimodale Modelle mit mehreren Bildereingaben

Daoan Zhang Junming Yang Hanjia Lyu Zijian Jin Yuan Yao Mingkai Chen Jiebo Luo

Zusammenfassung

Bei der Erforschung der Entwicklung der künstlichen allgemeinen Intelligenz (KAI) stellt die Interpretation und Verarbeitung von Informationen aus mehreren Bildereingaben eine wichtige Aufgabe für diese Modelle dar. Allerdings begegnen Large Multimodal Models (LMMs) in solchen Szenarien zwei Problemen: (1) einem Mangel an feingranularem Wahrnehmungsvermögen und (2) einer Tendenz, Informationen über mehrere Bilder zu vermischen. Wir untersuchen zunächst umfassend die Fähigkeit von LMMs, feingranulare visuelle Details bei der Bearbeitung von mehreren Eingabebildern wahrzunehmen. Die Forschung konzentriert sich auf zwei Aspekte: erstens, das Bild-zu-Bild-Matching (um zu evaluieren, ob LMMs effektiv relevante Bilder zuordnen können), und zweitens, das Mehrbild-zu-Text-Matching (um zu prüfen, ob LMMs detaillierte Bildinformationen korrekt erfassen und zusammenfassen können). Wir führen Bewertungen sowohl an offenen als auch an geschlossenen großen Modellen durch, darunter GPT-4V, Gemini, OpenFlamingo und MMICL. Um die Leistungsfähigkeit der Modelle zu verbessern, entwickeln wir außerdem einen kontrastiven Kette-des-Gedankens-Ansatz (Contrastive Chain-of-Thought, CoCoT) basierend auf Mehr-Eingabe-Multimodalmodellen. Diese Methode verlangt von den LMMs, Ähnlichkeiten und Unterschiede zwischen mehreren Bildereingaben zu vergleichen und dann die Modelle auf Grundlage der identifizierten Ähnlichkeiten und Unterschiede dazu anzuleiten, detaillierte Fragen zu Mehrbildereingaben zu beantworten. Unsere experimentellen Ergebnisse zeigen CoCoTs Effizienz bei der Steigerung der Mehrbildverstehensfähigkeiten großer Multimodalmodelle.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp