HyperAIHyperAI

Command Palette

Search for a command to run...

GenRecal: Generierung nach Kalibrierung von großen zu kleinen Vision-Sprachmodellen

Byung-Kwan Lee Ryo Hachiuma Yong Man Ro Yu-Chiang Frank Wang Yueh-Hua Wu

Zusammenfassung

Kürzliche Fortschritte bei visuellen Sprachmodellen (VLMs) haben es ermöglicht, große Sprachmodelle (LLMs) zu nutzen, um Leistungen zu erzielen, die mit geschlossenen Systemen wie GPT-4V vergleichbar sind. Allerdings bleibt die Bereitstellung dieser Modelle in realen Szenarien, insbesondere auf ressourcenbeschränkten Geräten, aufgrund ihrer erheblichen Rechenanforderungen herausfordernd. Dies hat das Interesse an der Wissensverdichtung von großen VLMs in kleinere, effizientere Modelle geweckt. Ein wesentlicher Herausforderung dabei ergibt sich aus der Vielfalt der VLM-Architekturen, die auf unterschiedlichen LLMs basieren und verschiedene Token-Typen verwenden – welche sich in Bezug auf Wortschatzgröße, Token-Spalten und Token-Index-Reihenfolge unterscheiden. Um diese Herausforderung der Beschränkung auf ein spezifisches VLM-Typ zu bewältigen, präsentieren wir Generation nach Kalibrierung (GenRecal), einen neuen, allgemeinen Distillationsrahmen für VLMs. GenRecal integriert einen Kalibrierer (Recalibrator), der die Merkmalsrepräsentationen zwischen heterogenen VLMs ausrichtet und anpasst, was eine effektive Wissensübertragung zwischen verschiedenen VLM-Typen ermöglicht. Durch umfangreiche Experimente auf mehreren anspruchsvollen Benchmarks zeigen wir, dass GenRecal die Baseline-Leistungen erheblich verbessert und letztendlich sowohl offene als auch geschlossene großskalige VLMs übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp