HyperAIHyperAI

Command Palette

Search for a command to run...

Gehen Sie weiter, anstatt tiefer zu gehen

Fuzhao Xue Ziji Shi Futao Wei Yuxuan Lou Yong Liu Yang You

Zusammenfassung

Kürzlich haben Transformer-Blöcke mit Residual-Verbindungen erstaunliche Ergebnisse auf verschiedenen Aufgaben erzielt. Um eine bessere Leistung mit weniger trainierbaren Parametern zu erreichen, wurden kürzlich Ansätze vorgeschlagen, die durch Parameter-Teilen oder Modellkompression entlang der Tiefe „flacher“ werden. Allerdings beschränkt die schwache Modellkapazität ihre Leistungsfähigkeit. Im Gegensatz dazu führt das „Weitermachen“ durch Einführung weiterer trainierbarer Matrizen und Parameter zu einem sehr großen Modell, das eine fortgeschrittene Parallelisierung für Training und Inferenz erfordert.In diesem Paper stellen wir einen parameter-effizienten Ansatz vor, der stattdessen die Modellbreite erhöht, anstatt die Tiefe zu vergrößern. Genauer gesagt, folgend bestehenden Arbeiten, adaptieren wir das Parameter-Teilen zur Kompression entlang der Tiefe. Eine solche Implementierung würde jedoch die Leistung einschränken. Um die Modellkapazität zu maximieren, erweitern wir das Modell entlang der Breite, indem wir das Feed-Forward-Netzwerk (FFN) durch ein Mixture-of-Experts (MoE)-Modul ersetzen. Innerhalb der Transformer-Blöcke ersetzen wir anstelle des gemeinsamen Einsatzes von Normalisierungsschichten individuelle Layernorms, um semantische Repräsentationen variierter Art effizienter zu transformieren. Um unsere plug-and-play-Framework zu evaluieren, entwerfen wir WideNet und führen umfassende Experimente auf gängigen Benchmarks im Bereich Computer Vision und Natural Language Processing durch. Auf ImageNet-1K übertrifft unser bestes Modell den Vision Transformer (ViT) um 1,5%1,5\%1,5% bei nur 0,72×0,72\times0,72× trainierbaren Parametern. Mit 0,46×0,46\times0,46× und 0,13×0,13\times0,13× Parametern erreicht WideNet immer noch eine Leistung, die ViT und ViT-MoE um 0,8%0,8\%0,8% bzw. 2,1%2,1\%2,1% übertrifft. Auf vier gängigen NLP-Datensätzen übertrifft WideNet ALBERT im Durchschnitt um 1,8%1,8\%1,8% und BERT mit faktorisierter Embedding-Parameterisierung um 0,8%0,8\%0,8%, wobei weniger Parameter verwendet werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp