HyperAIHyperAI

Command Palette

Search for a command to run...

Tiefe Gleichgewichtsmodelle

Shaojie Bai; J. Zico Kolter; Vladlen Koltun

Zusammenfassung

Wir stellen einen neuen Ansatz zur Modellierung sequentieller Daten vor: das Deep Equilibrium Model (DEQ). Ausgehend von der Beobachtung, dass die verborgenen Schichten vieler bestehender tiefer sequentieller Modelle zu einem Fixpunkt konvergieren, schlagen wir den DEQ-Ansatz vor, der diese Gleichgewichtspunkte direkt durch Nullstellenbestimmung findet. Diese Methode ist äquivalent zum Betrieb eines unendlich tiefen (gewichtskoppelten) Feedforward-Netzes, hat jedoch den bemerkenswerten Vorteil, dass wir analytisch durch den Gleichgewichtspunkt zurückpropagieren können, indem wir implizite Differentiation verwenden. Mit diesem Ansatz erfordern Training und Vorhersage in diesen Netzen nur konstanten Speicherplatz, unabhängig von der effektiven „Tiefe“ des Netzes. Wir zeigen auf, wie DEQs auf zwei state-of-the-art tiefe sequentielle Modelle angewendet werden können: Self-Attention-Transformer und Trellis-Netze. Bei großen Sprachmodellierungsaufgaben, wie dem WikiText-103-Benchmark, demonstrieren wir, dass DEQs 1) häufig die Leistung dieser state-of-the-art-Modelle verbessern (bei vergleichbaren Parameterzahlen); 2) ähnliche Rechenanforderungen wie bestehende Modelle haben; und 3) den Speicherverbrauch stark reduzieren (oft die Engpasse beim Training großer sequentieller Modelle), wobei unsere Experimente eine Speicherminderung von bis zu 88 % zeigen. Der Code ist unter https://github.com/locuslab/deq verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp