vor einem Monat

Effiziente multimodale große Sprachmodelle durch progressive Konsistenz-Distillation

Zichen Wen Shaobo Wang Yufa Zhou Junyuan Zhang Qintong Zhang Yifeng Gao Zhaorun Chen Bin Wang Weijia Li Conghui He

Abstract

Visuelle Tokens verbrauchen erhebliche Rechenressourcen in multimodellen Großmodellen (MLLMs) und beeinträchtigen deren Effizienz erheblich. In jüngsten Arbeiten wurde versucht, die Effizienz durch Kompression visueller Tokens während des Trainings zu verbessern, entweder durch Anpassungen an Modellkomponenten oder durch Einführung zusätzlicher Parameter. Allerdings berücksichtigen diese Ansätze oft nicht die erhöhte Lernschwierigkeit, die durch eine solche Kompression entsteht, da der Parameterraum des Modells Schwierigkeiten hat, sich schnell den erheblichen Störungen im Merkmalsraum anzupassen, die durch die Token-Kompression verursacht werden. In dieser Arbeit schlagen wir vor, effiziente MLLMs mittels Progressive Consistency Distillation (EPIC) zu entwickeln, einem fortschreitenden Lernframework. Genauer gesagt, indem wir die durch die Token-Kompression verursachten Störungen im Merkmalsraum entlang der Token-weisen und Schicht-weisen Dimensionen zerlegen, führen wir jeweils Token-Consistency-Distillation und Layer-Consistency-Distillation ein, um die Trainingskomplexität zu verringern, indem wir Anleitung durch ein Lehrmodell nutzen und einer fortschreitenden Lernstrategie folgen. Umfangreiche Experimente belegen die überlegene Wirksamkeit, Robustheit und Generalisierungsfähigkeit unseres vorgeschlagenen Frameworks.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Effiziente multimodale große Sprachmodelle durch progressive Konsistenz-Distillation

Zichen Wen Shaobo Wang Yufa Zhou Junyuan Zhang Qintong Zhang Yifeng Gao Zhaorun Chen Bin Wang Weijia Li Conghui He1 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Zichen Wen Shaobo Wang Yufa Zhou Junyuan Zhang Qintong Zhang Yifeng Gao Zhaorun Chen Bin Wang Weijia Li Conghui He