HyperAIHyperAI

Command Palette

Search for a command to run...

BP-Transformer: Modellierung langreichweitiger Kontexte durch binäre Partitionierung

Zihao Ye Qipeng Guo Quan Gan Xipeng Qiu Zheng Zhang

Zusammenfassung

Das Transformer-Modell ist bei vielen Aufgaben im Bereich des natürlichen Sprachverstehens äußerst erfolgreich. Allerdings beschränkt die quadratische Komplexität des Self-Attention-Verfahrens dessen Anwendung auf lange Texte. In diesem Artikel stellen wir BP-Transformer (BPT im Folgenden) vor, welches eine fein-zu-großskalige Aufmerksamkeitsmechanik über mehrere Skalen mittels binärer Partitionierung (Binary Partitioning, BP) implementiert. BPT erzeugt O(knlog(n/k))O(k\cdot n\log (n/k))O(knlog(n/k)) Verbindungen, wobei kkk ein Hyperparameter ist, der die Dichte der Aufmerksamkeit steuert. BPT erreicht ein gutes Gleichgewicht zwischen Berechnungskomplexität und Modellkapazität. Eine Reihe von Experimenten zu Textklassifikation, maschineller Übersetzung und Sprachmodellierung zeigt, dass BPT gegenüber früheren Self-Attention-Modellen eine überlegene Leistung bei langen Texten erzielt. Unser Quellcode, die Hyperparameter sowie CUDA-Kerne für spärliche Aufmerksamkeit sind in PyTorch verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BP-Transformer: Modellierung langreichweitiger Kontexte durch binäre Partitionierung | Paper | HyperAI