HyperAIHyperAI
vor 9 Tagen

Cluster-Former: Clustering-basiertes sparses Transformer-Modell zur Kodierung langreichweiter Abhängigkeiten

Shuohang Wang, Luowei Zhou, Zhe Gan, Yen-Chun Chen, Yuwei Fang, Siqi Sun, Yu Cheng, Jingjing Liu
Cluster-Former: Clustering-basiertes sparses Transformer-Modell zur Kodierung langreichweiter Abhängigkeiten
Abstract

Der Transformer ist in der Tiefe Lernfeld zu einer allgegenwärtigen Architektur geworden. Ein entscheidender Faktor für seinen Erfolg ist die Selbst-Attention-Mechanismus, der eine vollständig verbundene kontextuelle Kodierung über Eingabewörter ermöglicht. Dennoch leidet Selbst-Attention bei der Verarbeitung von Eingaben mit extrem langen Abhängigkeiten, da ihre Komplexität quadratisch mit der Sequenzlänge wächst. Daher werden lange Sequenzen in der Regel durch den Transformer in Blöcke unterteilt und mittels eines gleitenden Fensters kodiert. In diesem Artikel stellen wir Cluster-Former vor, einen neuartigen, auf Clustering basierenden sparsen Transformer, der die Aufmerksamkeit über segmentierte Sequenzen hinweg ermöglicht. Das vorgeschlagene Framework beruht auf zwei einzigartigen Typen von Transformer-Layern: dem Gleitfenster-Layer und dem Cluster-Former-Layer, die lokale Sequenzinformationen und globale Kontexte gemeinsam und iterativ kodieren. Diese neue Architektur ermöglicht eine Informationsintegration über lokale Fenster hinaus, was besonders vorteilhaft für Frage-Antwort-(QA)-Aufgaben ist, die auf langen Abhängigkeiten beruhen. Experimente zeigen, dass Cluster-Former eine state-of-the-art-Leistung auf mehreren führenden QA-Benchmarks erzielt.

Cluster-Former: Clustering-basiertes sparses Transformer-Modell zur Kodierung langreichweiter Abhängigkeiten | Neueste Forschungsarbeiten | HyperAI