HyperAI

Abstract

Vision-Language-Modelle (VLMs) sind für Aufgaben wie Bildbeschreibung und visuelle Fragebeantwortung von zentraler Bedeutung, werden jedoch durch ihre hohen Rechenkosten eingeschränkt, die durch große Speicherbedarfe und Verarbeitungszeiten verursacht werden. Dies beeinträchtigt ihre Skalierbarkeit und Anwendbarkeit in Echtzeit. In dieser Arbeit schlagen wir vor, die singuläre Wertzerlegung (Singular-Value Decomposition, SVD) auf die gemeinsamen Gewichtsmatrizen für Abfragen (Query, Q), Schlüssel (Key, K) und Werte (Value, V) anzuwenden, um die Größe des KV-Caches und den Rechenaufwand zu reduzieren. Zudem führen wir eine effiziente Rangzuweisungsstrategie ein, die den SVD-Rang dynamisch anhand seines Einflusses auf die Genauigkeit des VLMs anpasst und somit eine erhebliche Reduktion sowohl des Speicherverbrauchs als auch des Rechenaufwands ermöglicht. Schließlich erweitern wir diesen Ansatz durch die Anwendung von Quantisierung sowohl auf die VLM-Gewichte als auch auf die Aktivierungen, wodurch ein äußerst effizientes VLM entsteht. Unser Verfahren übertrifft bisherige Ansätze, die lediglich auf Quantisierung oder SVD basieren, mit einer Genauigkeitssteigerung um mehr als 10 % bei geringerem Hardwareverbrauch und ist somit besser für die Echtzeitanwendung auf ressourcenbeschränkten Geräten geeignet.

QSVD: Effiziente Niedrigrang-Approximation für die einheitliche Kompression von Query-Key-Value-Gewichten in niedrigpräzisen visuellen Sprachmodellen

Yutong Wang Haiyu Wang Sai Qian Zhang

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

QSVD: Effiziente Niedrigrang-Approximation für die einheitliche Kompression von Query-Key-Value-Gewichten in niedrigpräzisen visuellen Sprachmodellen

Yutong Wang Haiyu Wang Sai Qian Zhang

Abstract

KI mit KI entwickeln

Hyper Newsletters