HyperAIHyperAI

Command Palette

Search for a command to run...

PartialFormer: Modellierung von Teilen anstelle des Ganzen für die maschinelle Übersetzung

Tong Zheng Bei Li Huiwen Bao Jiale Wang Weiqiao Shan Tong Xiao Jingbo Zhu

Zusammenfassung

Die Gestaltungsoptionen in Transformer-Feed-Forward-Neural-Netzwerken haben zu erheblichen Rechen- und Parameteroverhead geführt. In dieser Arbeit betonen wir die Bedeutung der versteckten Dimensionen bei der Gestaltung leichter FFNs, einen Faktor, der in früheren Architekturen oft vernachlässigt wurde. Ausgehend von diesem Prinzip führen wir PartialFormer ein, eine parameter-effiziente Transformer-Architektur, die mehrere kleinere FFNs nutzt, um Parameter und Berechnungsaufwand zu reduzieren, während die essenziellen versteckten Dimensionen beibehalten werden. Diese kleineren FFNs werden in eine Multi-Head-Attention-Mechanismus integriert, um eine effektive Zusammenarbeit zu ermöglichen. Zudem schlagen wir eine maßgeschneiderte Kopf-Skalierungsstrategie vor, um die Fähigkeiten von PartialFormer zu verbessern. Darüber hinaus präsentieren wir eine residual-artige Aufmerksamkeitsberechnung, um die Skalierung in Tiefe innerhalb von PartialFormer zu verfeinern. Umfassende Experimente auf 9 Übersetzungs- und 1 abstraktiven Zusammenfassungsaufgaben bestätigen die Wirksamkeit unseres PartialFormer-Ansatzes für maschinelle Übersetzung und Zusammenfassungsaufgaben. Unser Code wird unter: https://github.com/zhengkid/PartialFormer verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PartialFormer: Modellierung von Teilen anstelle des Ganzen für die maschinelle Übersetzung | Paper | HyperAI