vor 17 Tagen

PartialFormer: Modellierung von Teilen anstelle des Ganzen für die maschinelle Übersetzung

Tong Zheng, Bei Li, Huiwen Bao, Jiale Wang, Weiqiao Shan, Tong Xiao, Jingbo Zhu

Abstract

Die Gestaltungsoptionen in Transformer-Feed-Forward-Neural-Netzwerken haben zu erheblichen Rechen- und Parameteroverhead geführt. In dieser Arbeit betonen wir die Bedeutung der versteckten Dimensionen bei der Gestaltung leichter FFNs, einen Faktor, der in früheren Architekturen oft vernachlässigt wurde. Ausgehend von diesem Prinzip führen wir PartialFormer ein, eine parameter-effiziente Transformer-Architektur, die mehrere kleinere FFNs nutzt, um Parameter und Berechnungsaufwand zu reduzieren, während die essenziellen versteckten Dimensionen beibehalten werden. Diese kleineren FFNs werden in eine Multi-Head-Attention-Mechanismus integriert, um eine effektive Zusammenarbeit zu ermöglichen. Zudem schlagen wir eine maßgeschneiderte Kopf-Skalierungsstrategie vor, um die Fähigkeiten von PartialFormer zu verbessern. Darüber hinaus präsentieren wir eine residual-artige Aufmerksamkeitsberechnung, um die Skalierung in Tiefe innerhalb von PartialFormer zu verfeinern. Umfassende Experimente auf 9 Übersetzungs- und 1 abstraktiven Zusammenfassungsaufgaben bestätigen die Wirksamkeit unseres PartialFormer-Ansatzes für maschinelle Übersetzung und Zusammenfassungsaufgaben. Unser Code wird unter: https://github.com/zhengkid/PartialFormer verfügbar sein.