HyperAI
Back to Headlines

Chinesischer Student verbessert Transformer-Modell mit 27 Mio. Parametern

vor 3 Tagen

Ein Team von Studenten der Tsinghua-Universität im Alter von 2000er-Jahren hat eine neue Variante des Transformer-Modells namens HRM entwickelt, die bei nur 27 Millionen Parametern sowohl o3 als auch Claude übertrifft. HRM zeichnet sich durch eine verbesserte Berechnungseffizienz und Verteilungsaufmerksamkeit aus, was es zu einer vielversprechenden Innovation im Bereich der künstlichen Intelligenz macht. Die Herausforderung bei traditionellen Transformer-Modellen liegt darin, dass sie auf rekurrenten neuronalen Netzwerken basieren, die zu Frühstopp-Problemen neigen und von der Speicher- und Zeitkomplexität abhängig sind. Diese Modelle haben oft eine begrenzte Berechnungstiefe, insbesondere bei langen Sequenzen, was ihre Effizienz und Anwendbarkeit beeinträchtigt. HRM löst diese Probleme durch eine optimierte Architektur, die den Rechenprozess effizienter gestaltet und gleichzeitig die Komplexität reduziert. Ein wesentlicher Aspekt von HRM ist seine Fähigkeit, selbstständig in kontinuierlichen Räumen zu operieren. Neben der Verwendung markierter Denkpfade für feine Anpassungen verwendet HRM verstärktes Lernen, um die Leistung des Modells zu verbessern. Diese Methode nutzt existierende Denkpfade, um das Modell zu trainieren, anstatt neue Mechanismen zu entdecken. Allerdings kann das Training mit markierten Denkpfaden instabil sein und bei geringer Datenqualität ineffektiv. HRM überwindet dies durch ein dichtes Überwachungssignal, das auf Basis der Gradientenüberwachung generiert wird, ohne auf komplizierte Belohnungssignale zu verzichten. In kontinuierlichen Räumen zu operieren, verleiht HRM nicht nur eine bessere biologische Plausibilität, sondern ermöglicht auch eine dynamische Ressourcenverteilung basierend auf der Komplexität der Schritte im Inferenz- und Planungsprozess. Dies verhindert eine gleichmäßige Verarbeitung jedes Tokens, was die Effizienz des Modells weiter steigert. Die Testergebnisse zeigen, dass HRM in verschiedenen Benchmarks eine ausgezeichnete Performance zeigt, was seine Fähigkeit zur effizienten und effektiven Verarbeitung langer Sequenzen unterstreicht. Die Entwicklung von HRM ist ein wichtiger Schritt voran, um die Grenzen der traditionellen Transformer-Modelle zu überschreiten und die Anwendbarkeit in realen Szenarien zu erhöhen. Industry-Insider und Experten loben die Innovation von HRM und sehen sie als bedeutenden Fortschritt in der Entwicklungsrichtung von Transformer-Modellen. Die Tsinghua-Universität hat sich in der Forschung zu künstlicher Intelligenz einen Namen gemacht und produziert regelmäßig bahnbrechende Arbeiten in diesem Bereich. Die Autoren der Studie, Guan Wang und Austin Zheng, sind junge Talente, die bereits durch ihre bisherigen Beiträge zur AI-Gemeinschaft Anerkennung erhalten haben. Ihre Arbeit verspricht, erhebliche Auswirkungen auf zukünftige Entwicklungen in der künstlichen Intelligenz zu haben.

Related Links