HyperAIHyperAI

Command Palette

Search for a command to run...

Energiebasierte Transformer sind skalierbare Lerner und Denker

Alexi Gladstone Ganesh Nanduru Md Mofijul Islam Peixuan Han Hyeonjeong Ha Aman Chadha Yilun Du Heng Ji Jundong Li Tariq Iqbal

Zusammenfassung

Schlusszeit-Berechnungstechniken, die dem menschlichen System-2-Denken analog sind, haben sich kürzlich zur Verbesserung der Modellleistung großer Beliebtheit erfreut. Dennoch leiden die meisten existierenden Ansätze unter mehreren Einschränkungen: Sie sind modalitätsspezifisch (z. B. nur im Text), problemspezifisch (z. B. in verifizierbaren Bereichen wie Mathematik und Programmierung) oder erfordern zusätzliche Überwachung/Ausbildung über unsupervised Pretraining hinaus (z. B. Verifier oder verifizierbare Belohnungen). In dieser Arbeit stellen wir die Frage: „Ist es möglich, diese System-2-Denkansätze zu generalisieren und Modelle zu entwickeln, die allein durch unsupervised Learning lernen zu denken?“ Interessanterweise finden wir, dass die Antwort Ja ist, indem das Modell lernt, die Kompatibilität zwischen Eingaben und Kandidaten-Vorhersagen explizit zu verifizieren und anschließend Vorhersageprobleme als Optimierung bezüglich dieses Verifiers neu zu formulieren. Speziell trainieren wir Energiebasierte Transformer (EBTs) – eine neue Klasse von Energiebasierten Modellen (EBMs) – um jedem Eingabe-Kandidaten-Vorhersage-Paar einen Energiwert zuzuordnen, was es ermöglicht, Vorhersagen durch Gradientenabstieg-basierte Energieminimierung bis zur Konvergenz zu treffen. Bei sowohl diskreten (Text) als auch kontinuierlichen (visuellen) Modalitäten finden wir heraus, dass EBTs während des Trainings schneller skalieren als der dominante Transformer++-Ansatz und eine bis zu 35 % höhere Skalierungsrate in Bezug auf Datenmenge, Batch-Größe, Parameteranzahl, FLOPs und Tiefe erreichen. Während der Inferenz verbessern EBTs die Leistung mit System-2-Denken um 29 % mehr als der Transformer++ bei Sprachaufgaben und übertreffen Diffusionstransformer bei der Bildentrauschung mit weniger Forward-Passes. Darüber hinaus stellen wir fest, dass EBTs bei den meisten Downstream-Aufgaben bessere Ergebnisse erzielen als bestehende Modelle bei gleicher oder schlechterer Pretraining-Leistung, was darauf hinweist, dass EBTs besser generalisieren als bestehende Ansätze. Folglich bieten EBTs ein vielversprechendes neues Paradigma für das Skalieren sowohl der Lern- als auch der Denkfähigkeiten von Modellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp