Command Palette
Search for a command to run...
Effiziente multimodale große Sprachmodelle durch progressive Konsistenz-Distillation

Abstract
Visuelle Tokens verbrauchen erhebliche Rechenressourcen in multimodellen Großmodellen (MLLMs) und beeinträchtigen deren Effizienz erheblich. In jüngsten Arbeiten wurde versucht, die Effizienz durch Kompression visueller Tokens während des Trainings zu verbessern, entweder durch Anpassungen an Modellkomponenten oder durch Einführung zusätzlicher Parameter. Allerdings berücksichtigen diese Ansätze oft nicht die erhöhte Lernschwierigkeit, die durch eine solche Kompression entsteht, da der Parameterraum des Modells Schwierigkeiten hat, sich schnell den erheblichen Störungen im Merkmalsraum anzupassen, die durch die Token-Kompression verursacht werden. In dieser Arbeit schlagen wir vor, effiziente MLLMs mittels Progressive Consistency Distillation (EPIC) zu entwickeln, einem fortschreitenden Lernframework. Genauer gesagt, indem wir die durch die Token-Kompression verursachten Störungen im Merkmalsraum entlang der Token-weisen und Schicht-weisen Dimensionen zerlegen, führen wir jeweils Token-Consistency-Distillation und Layer-Consistency-Distillation ein, um die Trainingskomplexität zu verringern, indem wir Anleitung durch ein Lehrmodell nutzen und einer fortschreitenden Lernstrategie folgen. Umfangreiche Experimente belegen die überlegene Wirksamkeit, Robustheit und Generalisierungsfähigkeit unseres vorgeschlagenen Frameworks.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.