Schleifen-neuronale Netzwerke für Parameter-Teilung

Der Erfolg großskaliger Sprachmodelle wie GPT beruht auf ihrer Fähigkeit, den nächsten Token einer Sequenz effizient vorherzusagen. Diese Modelle setzen jedoch unabhängig von der Komplexität des vorherzusagenden Tokens stets einen konstanten Rechenaufwand auf, wodurch sie die Fähigkeit zur iterativen Verbesserung vermissen. In diesem Artikel stellen wir ein neuartiges Schleifen-Neuronales Netzwerk (Loop Neural Network) vor, das durch längere Berechnungszeiten, ohne die Modellgröße zu erhöhen, eine verbesserte Leistung erzielt. Unser Ansatz wiederholt mehrfach die Eingabe und verfeinert die Vorhersage durch iterative Schleifen über einen Teil des Modells unter Verwendung von Residual-Verbindungen. Wir belegen die Wirksamkeit dieser Methode durch Experimente, bei denen Versionen von GPT-2 mit unseren Schleifenmodellen verglichen werden. Die Ergebnisse zeigen eine verbesserte Leistung bei Sprachmodellierungsaufgaben, wobei die Anzahl der Parameter nahezu unverändert bleibt. Wichtig ist, dass diese Verbesserungen ohne zusätzliche Trainingsdaten erreicht werden können.