HyperAIHyperAI
vor 9 Tagen

BP-Transformer: Modellierung langreichweitiger Kontexte durch binäre Partitionierung

Zihao Ye, Qipeng Guo, Quan Gan, Xipeng Qiu, Zheng Zhang
BP-Transformer: Modellierung langreichweitiger Kontexte durch binäre Partitionierung
Abstract

Das Transformer-Modell ist bei vielen Aufgaben im Bereich des natürlichen Sprachverstehens äußerst erfolgreich. Allerdings beschränkt die quadratische Komplexität des Self-Attention-Verfahrens dessen Anwendung auf lange Texte. In diesem Artikel stellen wir BP-Transformer (BPT im Folgenden) vor, welches eine fein-zu-großskalige Aufmerksamkeitsmechanik über mehrere Skalen mittels binärer Partitionierung (Binary Partitioning, BP) implementiert. BPT erzeugt $O(k\cdot n\log (n/k))$ Verbindungen, wobei $k$ ein Hyperparameter ist, der die Dichte der Aufmerksamkeit steuert. BPT erreicht ein gutes Gleichgewicht zwischen Berechnungskomplexität und Modellkapazität. Eine Reihe von Experimenten zu Textklassifikation, maschineller Übersetzung und Sprachmodellierung zeigt, dass BPT gegenüber früheren Self-Attention-Modellen eine überlegene Leistung bei langen Texten erzielt. Unser Quellcode, die Hyperparameter sowie CUDA-Kerne für spärliche Aufmerksamkeit sind in PyTorch verfügbar.