Tiefe Gleichgewichtsmodelle

Wir stellen einen neuen Ansatz zur Modellierung sequentieller Daten vor: das Deep Equilibrium Model (DEQ). Ausgehend von der Beobachtung, dass die verborgenen Schichten vieler bestehender tiefer sequentieller Modelle zu einem Fixpunkt konvergieren, schlagen wir den DEQ-Ansatz vor, der diese Gleichgewichtspunkte direkt durch Nullstellenbestimmung findet. Diese Methode ist äquivalent zum Betrieb eines unendlich tiefen (gewichtskoppelten) Feedforward-Netzes, hat jedoch den bemerkenswerten Vorteil, dass wir analytisch durch den Gleichgewichtspunkt zurückpropagieren können, indem wir implizite Differentiation verwenden. Mit diesem Ansatz erfordern Training und Vorhersage in diesen Netzen nur konstanten Speicherplatz, unabhängig von der effektiven „Tiefe“ des Netzes. Wir zeigen auf, wie DEQs auf zwei state-of-the-art tiefe sequentielle Modelle angewendet werden können: Self-Attention-Transformer und Trellis-Netze. Bei großen Sprachmodellierungsaufgaben, wie dem WikiText-103-Benchmark, demonstrieren wir, dass DEQs 1) häufig die Leistung dieser state-of-the-art-Modelle verbessern (bei vergleichbaren Parameterzahlen); 2) ähnliche Rechenanforderungen wie bestehende Modelle haben; und 3) den Speicherverbrauch stark reduzieren (oft die Engpasse beim Training großer sequentieller Modelle), wobei unsere Experimente eine Speicherminderung von bis zu 88 % zeigen. Der Code ist unter https://github.com/locuslab/deq verfügbar.