Command Palette
Search for a command to run...
Gehen Sie weiter, anstatt tiefer zu gehen
Gehen Sie weiter, anstatt tiefer zu gehen
Fuzhao Xue Ziji Shi Futao Wei Yuxuan Lou Yong Liu Yang You
Zusammenfassung
Kürzlich haben Transformer-Blöcke mit Residual-Verbindungen erstaunliche Ergebnisse auf verschiedenen Aufgaben erzielt. Um eine bessere Leistung mit weniger trainierbaren Parametern zu erreichen, wurden kürzlich Ansätze vorgeschlagen, die durch Parameter-Teilen oder Modellkompression entlang der Tiefe „flacher“ werden. Allerdings beschränkt die schwache Modellkapazität ihre Leistungsfähigkeit. Im Gegensatz dazu führt das „Weitermachen“ durch Einführung weiterer trainierbarer Matrizen und Parameter zu einem sehr großen Modell, das eine fortgeschrittene Parallelisierung für Training und Inferenz erfordert.In diesem Paper stellen wir einen parameter-effizienten Ansatz vor, der stattdessen die Modellbreite erhöht, anstatt die Tiefe zu vergrößern. Genauer gesagt, folgend bestehenden Arbeiten, adaptieren wir das Parameter-Teilen zur Kompression entlang der Tiefe. Eine solche Implementierung würde jedoch die Leistung einschränken. Um die Modellkapazität zu maximieren, erweitern wir das Modell entlang der Breite, indem wir das Feed-Forward-Netzwerk (FFN) durch ein Mixture-of-Experts (MoE)-Modul ersetzen. Innerhalb der Transformer-Blöcke ersetzen wir anstelle des gemeinsamen Einsatzes von Normalisierungsschichten individuelle Layernorms, um semantische Repräsentationen variierter Art effizienter zu transformieren. Um unsere plug-and-play-Framework zu evaluieren, entwerfen wir WideNet und führen umfassende Experimente auf gängigen Benchmarks im Bereich Computer Vision und Natural Language Processing durch. Auf ImageNet-1K übertrifft unser bestes Modell den Vision Transformer (ViT) um 1,5% bei nur 0,72× trainierbaren Parametern. Mit 0,46× und 0,13× Parametern erreicht WideNet immer noch eine Leistung, die ViT und ViT-MoE um 0,8% bzw. 2,1% übertrifft. Auf vier gängigen NLP-Datensätzen übertrifft WideNet ALBERT im Durchschnitt um 1,8% und BERT mit faktorisierter Embedding-Parameterisierung um 0,8%, wobei weniger Parameter verwendet werden.