HyperAIHyperAI

Command Palette

Search for a command to run...

Cluster-Former: Clustering-basiertes sparses Transformer-Modell zur Kodierung langreichweiter Abhängigkeiten

Shuohang Wang Luowei Zhou Zhe Gan Yen-Chun Chen Yuwei Fang Siqi Sun Yu Cheng Jingjing Liu

Zusammenfassung

Der Transformer ist in der Tiefe Lernfeld zu einer allgegenwärtigen Architektur geworden. Ein entscheidender Faktor für seinen Erfolg ist die Selbst-Attention-Mechanismus, der eine vollständig verbundene kontextuelle Kodierung über Eingabewörter ermöglicht. Dennoch leidet Selbst-Attention bei der Verarbeitung von Eingaben mit extrem langen Abhängigkeiten, da ihre Komplexität quadratisch mit der Sequenzlänge wächst. Daher werden lange Sequenzen in der Regel durch den Transformer in Blöcke unterteilt und mittels eines gleitenden Fensters kodiert. In diesem Artikel stellen wir Cluster-Former vor, einen neuartigen, auf Clustering basierenden sparsen Transformer, der die Aufmerksamkeit über segmentierte Sequenzen hinweg ermöglicht. Das vorgeschlagene Framework beruht auf zwei einzigartigen Typen von Transformer-Layern: dem Gleitfenster-Layer und dem Cluster-Former-Layer, die lokale Sequenzinformationen und globale Kontexte gemeinsam und iterativ kodieren. Diese neue Architektur ermöglicht eine Informationsintegration über lokale Fenster hinaus, was besonders vorteilhaft für Frage-Antwort-(QA)-Aufgaben ist, die auf langen Abhängigkeiten beruhen. Experimente zeigen, dass Cluster-Former eine state-of-the-art-Leistung auf mehreren führenden QA-Benchmarks erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp