HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Hyper-Bagel: Ein einheitlicher Beschleunigungsrahmen für multimodales Verständnis und Generierung

Yanzuo Lu Xin Xia Manlin Zhang Huafeng Kuang Jianbin Zheng Yuxi Ren Xuefeng Xiao

Hyper-Bagel: Ein einheitlicher Beschleunigungsrahmen für multimodales Verständnis und Generierung

Abstract

Einheitliche multimodale Modelle haben in letzter Zeit erhebliche Aufmerksamkeit auf sich gezogen, da sie bemerkenswerte Fähigkeiten im gemeinsamen Verstehen und Generieren vielfältiger Inhalte besitzen. Doch je mehr sich kontextuell ineinander verschachtelte multimodale Token integrieren, desto erheblicher wird der rechnerische Aufwand durch die iterativen Prozesse der Diffusionsentrauschung und der autoregressiven Dekodierung. Um diesem Problem zu begegnen, stellen wir Hyper-Bagel vor, einen einheitlichen Beschleunigungsrahmen, der gleichzeitig sowohl multimodale Verstehens- als auch Generierungsaufgaben beschleunigt. Unser Ansatz basiert auf einer Teile-und-Herrsche-Strategie und setzt spekulative Dekodierung zur Vorhersage des nächsten Tokens sowie einen mehrstufigen Distillationsprozess zur Diffusionsentrauschung ein. Der Rahmen erzielt erhebliche Leistungssteigerungen und erreicht bei multimodalen Verstehensaufgaben eine Beschleunigung um mehr als das 2-Fache. Bei generativen Aufgaben liefert unser verlustfreier 6-NFE-Modell eine 16,67-fache Beschleunigung bei der Text-zu-Bild-Generierung und eine 22-fache Beschleunigung bei der Bildbearbeitung, wobei die hohe Ausgabeklasse des ursprünglichen Modells vollständig erhalten bleibt. Darüber hinaus entwickeln wir einen äußerst effizienten 1-NFE-Modell, der nahezu Echtzeit-Interaktionen bei der Bearbeitung und Generierung ermöglicht. Durch die Kombination fortschrittlicher adversarialer Distillation mit Lernen aus menschlicher Rückmeldung erreicht dieses Modell eine optimale Kosteneffizienz und Reaktionsfähigkeit, wodurch komplexe multimodale Interaktionen nahtlos und sofort erfolgen können.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Hyper-Bagel: Ein einheitlicher Beschleunigungsrahmen für multimodales Verständnis und Generierung | Forschungsarbeiten | HyperAI