HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Effiziente multimodale große Sprachmodelle durch progressive Konsistenz-Distillation

Effiziente multimodale große Sprachmodelle durch progressive Konsistenz-Distillation

Abstract

Visuelle Tokens verbrauchen erhebliche Rechenressourcen in multimodellen Großmodellen (MLLMs) und beeinträchtigen deren Effizienz erheblich. In jüngsten Arbeiten wurde versucht, die Effizienz durch Kompression visueller Tokens während des Trainings zu verbessern, entweder durch Anpassungen an Modellkomponenten oder durch Einführung zusätzlicher Parameter. Allerdings berücksichtigen diese Ansätze oft nicht die erhöhte Lernschwierigkeit, die durch eine solche Kompression entsteht, da der Parameterraum des Modells Schwierigkeiten hat, sich schnell den erheblichen Störungen im Merkmalsraum anzupassen, die durch die Token-Kompression verursacht werden. In dieser Arbeit schlagen wir vor, effiziente MLLMs mittels Progressive Consistency Distillation (EPIC) zu entwickeln, einem fortschreitenden Lernframework. Genauer gesagt, indem wir die durch die Token-Kompression verursachten Störungen im Merkmalsraum entlang der Token-weisen und Schicht-weisen Dimensionen zerlegen, führen wir jeweils Token-Consistency-Distillation und Layer-Consistency-Distillation ein, um die Trainingskomplexität zu verringern, indem wir Anleitung durch ein Lehrmodell nutzen und einer fortschreitenden Lernstrategie folgen. Umfangreiche Experimente belegen die überlegene Wirksamkeit, Robustheit und Generalisierungsfähigkeit unseres vorgeschlagenen Frameworks.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Effiziente multimodale große Sprachmodelle durch progressive Konsistenz-Distillation | Forschungsarbeiten | HyperAI