QSVD: Effiziente Niedrigrang-Approximation für die einheitliche Kompression von Query-Key-Value-Gewichten in niedrigpräzisen visuellen Sprachmodellen
Yutong Wang Haiyu Wang Sai Qian Zhang

Abstract
Vision-Language-Modelle (VLMs) sind für Aufgaben wie Bildbeschreibung und visuelle Fragebeantwortung von zentraler Bedeutung, werden jedoch durch ihre hohen Rechenkosten eingeschränkt, die durch große Speicherbedarfe und Verarbeitungszeiten verursacht werden. Dies beeinträchtigt ihre Skalierbarkeit und Anwendbarkeit in Echtzeit. In dieser Arbeit schlagen wir vor, die singuläre Wertzerlegung (Singular-Value Decomposition, SVD) auf die gemeinsamen Gewichtsmatrizen für Abfragen (Query, Q), Schlüssel (Key, K) und Werte (Value, V) anzuwenden, um die Größe des KV-Caches und den Rechenaufwand zu reduzieren. Zudem führen wir eine effiziente Rangzuweisungsstrategie ein, die den SVD-Rang dynamisch anhand seines Einflusses auf die Genauigkeit des VLMs anpasst und somit eine erhebliche Reduktion sowohl des Speicherverbrauchs als auch des Rechenaufwands ermöglicht. Schließlich erweitern wir diesen Ansatz durch die Anwendung von Quantisierung sowohl auf die VLM-Gewichte als auch auf die Aktivierungen, wodurch ein äußerst effizientes VLM entsteht. Unser Verfahren übertrifft bisherige Ansätze, die lediglich auf Quantisierung oder SVD basieren, mit einer Genauigkeitssteigerung um mehr als 10 % bei geringerem Hardwareverbrauch und ist somit besser für die Echtzeitanwendung auf ressourcenbeschränkten Geräten geeignet.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.