GenRecal: Generierung nach Kalibrierung von großen zu kleinen Vision-Sprachmodellen

Kürzliche Fortschritte bei visuellen Sprachmodellen (VLMs) haben es ermöglicht, große Sprachmodelle (LLMs) zu nutzen, um Leistungen zu erzielen, die mit geschlossenen Systemen wie GPT-4V vergleichbar sind. Allerdings bleibt die Bereitstellung dieser Modelle in realen Szenarien, insbesondere auf ressourcenbeschränkten Geräten, aufgrund ihrer erheblichen Rechenanforderungen herausfordernd. Dies hat das Interesse an der Wissensverdichtung von großen VLMs in kleinere, effizientere Modelle geweckt. Ein wesentlicher Herausforderung dabei ergibt sich aus der Vielfalt der VLM-Architekturen, die auf unterschiedlichen LLMs basieren und verschiedene Token-Typen verwenden – welche sich in Bezug auf Wortschatzgröße, Token-Spalten und Token-Index-Reihenfolge unterscheiden. Um diese Herausforderung der Beschränkung auf ein spezifisches VLM-Typ zu bewältigen, präsentieren wir Generation nach Kalibrierung (GenRecal), einen neuen, allgemeinen Distillationsrahmen für VLMs. GenRecal integriert einen Kalibrierer (Recalibrator), der die Merkmalsrepräsentationen zwischen heterogenen VLMs ausrichtet und anpasst, was eine effektive Wissensübertragung zwischen verschiedenen VLM-Typen ermöglicht. Durch umfangreiche Experimente auf mehreren anspruchsvollen Benchmarks zeigen wir, dass GenRecal die Baseline-Leistungen erheblich verbessert und letztendlich sowohl offene als auch geschlossene großskalige VLMs übertrifft.