HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

QSVD: Effiziente Niedrigrang-Approximation für die einheitliche Kompression von Query-Key-Value-Gewichten in niedrigpräzisen visuellen Sprachmodellen

Yutong Wang Haiyu Wang Sai Qian Zhang

QSVD: Effiziente Niedrigrang-Approximation für die einheitliche Kompression von Query-Key-Value-Gewichten in niedrigpräzisen visuellen Sprachmodellen

Abstract

Vision-Language-Modelle (VLMs) sind für Aufgaben wie Bildbeschreibung und visuelle Fragebeantwortung von zentraler Bedeutung, werden jedoch durch ihre hohen Rechenkosten eingeschränkt, die durch große Speicherbedarfe und Verarbeitungszeiten verursacht werden. Dies beeinträchtigt ihre Skalierbarkeit und Anwendbarkeit in Echtzeit. In dieser Arbeit schlagen wir vor, die singuläre Wertzerlegung (Singular-Value Decomposition, SVD) auf die gemeinsamen Gewichtsmatrizen für Abfragen (Query, Q), Schlüssel (Key, K) und Werte (Value, V) anzuwenden, um die Größe des KV-Caches und den Rechenaufwand zu reduzieren. Zudem führen wir eine effiziente Rangzuweisungsstrategie ein, die den SVD-Rang dynamisch anhand seines Einflusses auf die Genauigkeit des VLMs anpasst und somit eine erhebliche Reduktion sowohl des Speicherverbrauchs als auch des Rechenaufwands ermöglicht. Schließlich erweitern wir diesen Ansatz durch die Anwendung von Quantisierung sowohl auf die VLM-Gewichte als auch auf die Aktivierungen, wodurch ein äußerst effizientes VLM entsteht. Unser Verfahren übertrifft bisherige Ansätze, die lediglich auf Quantisierung oder SVD basieren, mit einer Genauigkeitssteigerung um mehr als 10 % bei geringerem Hardwareverbrauch und ist somit besser für die Echtzeitanwendung auf ressourcenbeschränkten Geräten geeignet.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
QSVD: Effiziente Niedrigrang-Approximation für die einheitliche Kompression von Query-Key-Value-Gewichten in niedrigpräzisen visuellen Sprachmodellen | Forschungsarbeiten | HyperAI