HyperAIHyperAI

Command Palette

Search for a command to run...

CogVLM: Visueller Experte für vortrainierte Sprachmodelle

Zusammenfassung

Wir stellen CogVLM vor, ein leistungsfähiges Open-Source-Modell zur visuellen Sprachgrundlage.Im Gegensatz zur gängigen Methode der flachen Ausrichtung, die Bildmerkmale in den Eingaberaum des Sprachmodells abbildet, schließt CogVLM die Lücke zwischen dem gefrorenen vortrainierten Sprachmodell und dem Bildencoder durch ein trainierbares visuelles Expertenmodul in den Aufmerksamkeits- und FFN-Schichten (Feed-Forward Network). Dadurch ermöglicht CogVLM eine tiefe Fusion von visuellen und sprachlichen Merkmalen ohne Leistungsverlust bei NLP-Aufgaben (Natural Language Processing).CogVLM-17B erzielt Stand-of-the-Art-Ergebnisse auf zehn klassischen multimodalen Benchmarks, darunter NoCaps, Flicker30k Captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA und TDIUC. Es belegt den zweiten Platz auf VQAv2, OKVQA, TextVQA und COCO Captioning und übertrifft oder erreicht die Leistung von PaLI-X 55B. Die Codes und Checkpoints sind unter https://github.com/THUDM/CogVLM verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp