Command Palette
Search for a command to run...
Hyper-Bagel: Ein einheitlicher Beschleunigungsrahmen für multimodales Verständnis und Generierung
Yanzuo Lu Xin Xia Manlin Zhang Huafeng Kuang Jianbin Zheng Yuxi Ren Xuefeng Xiao

Abstract
Einheitliche multimodale Modelle haben in letzter Zeit erhebliche Aufmerksamkeit auf sich gezogen, da sie bemerkenswerte Fähigkeiten im gemeinsamen Verstehen und Generieren vielfältiger Inhalte besitzen. Doch je mehr sich kontextuell ineinander verschachtelte multimodale Token integrieren, desto erheblicher wird der rechnerische Aufwand durch die iterativen Prozesse der Diffusionsentrauschung und der autoregressiven Dekodierung. Um diesem Problem zu begegnen, stellen wir Hyper-Bagel vor, einen einheitlichen Beschleunigungsrahmen, der gleichzeitig sowohl multimodale Verstehens- als auch Generierungsaufgaben beschleunigt. Unser Ansatz basiert auf einer Teile-und-Herrsche-Strategie und setzt spekulative Dekodierung zur Vorhersage des nächsten Tokens sowie einen mehrstufigen Distillationsprozess zur Diffusionsentrauschung ein. Der Rahmen erzielt erhebliche Leistungssteigerungen und erreicht bei multimodalen Verstehensaufgaben eine Beschleunigung um mehr als das 2-Fache. Bei generativen Aufgaben liefert unser verlustfreier 6-NFE-Modell eine 16,67-fache Beschleunigung bei der Text-zu-Bild-Generierung und eine 22-fache Beschleunigung bei der Bildbearbeitung, wobei die hohe Ausgabeklasse des ursprünglichen Modells vollständig erhalten bleibt. Darüber hinaus entwickeln wir einen äußerst effizienten 1-NFE-Modell, der nahezu Echtzeit-Interaktionen bei der Bearbeitung und Generierung ermöglicht. Durch die Kombination fortschrittlicher adversarialer Distillation mit Lernen aus menschlicher Rückmeldung erreicht dieses Modell eine optimale Kosteneffizienz und Reaktionsfähigkeit, wodurch komplexe multimodale Interaktionen nahtlos und sofort erfolgen können.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.