CogVLM: Visueller Experte für vortrainierte Sprachmodelle

Wir stellen CogVLM vor, ein leistungsfähiges Open-Source-Modell zur visuellen Sprachgrundlage.Im Gegensatz zur gängigen Methode der flachen Ausrichtung, die Bildmerkmale in den Eingaberaum des Sprachmodells abbildet, schließt CogVLM die Lücke zwischen dem gefrorenen vortrainierten Sprachmodell und dem Bildencoder durch ein trainierbares visuelles Expertenmodul in den Aufmerksamkeits- und FFN-Schichten (Feed-Forward Network). Dadurch ermöglicht CogVLM eine tiefe Fusion von visuellen und sprachlichen Merkmalen ohne Leistungsverlust bei NLP-Aufgaben (Natural Language Processing).CogVLM-17B erzielt Stand-of-the-Art-Ergebnisse auf zehn klassischen multimodalen Benchmarks, darunter NoCaps, Flicker30k Captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA und TDIUC. Es belegt den zweiten Platz auf VQAv2, OKVQA, TextVQA und COCO Captioning und übertrifft oder erreicht die Leistung von PaLI-X 55B. Die Codes und Checkpoints sind unter https://github.com/THUDM/CogVLM verfügbar.