HyperAIHyperAI

Command Palette

Search for a command to run...

Big Bird: Transformers für längere Sequenzen

Zusammenfassung

Transformers-basierte Modelle wie BERT gehören zu den erfolgreichsten tiefen Lernmodellen für die natürliche Sprachverarbeitung (NLP). Leider weist eine ihrer zentralen Einschränkungen eine quadratische Abhängigkeit (insbesondere hinsichtlich des Speicherverbrauchs) von der Sequenzlänge auf, bedingt durch ihre vollständige Aufmerksamkeitsmechanik. Um dies zu beheben, schlagen wir BigBird vor, einen sparsamen Aufmerksamkeitsmechanismus, der diese quadratische Abhängigkeit auf linear reduziert. Wir zeigen, dass BigBird eine universelle Approximatorin von Sequenzfunktionen ist und turingvollständig ist, wodurch diese Eigenschaften des quadratischen, vollständigen Aufmerksamkeitsmodells bewahrt bleiben. Gleichzeitig offenbart unsere theoretische Analyse einige Vorteile von O(1)O(1)O(1) globalen Token (wie CLS), die im Rahmen des sparsen Aufmerksamkeitsmechanismus die gesamte Sequenz beobachten. Der vorgeschlagene sparsame Aufmerksamkeitsansatz ermöglicht die Verarbeitung von Sequenzen bis zu achtmal länger als zuvor mit vergleichbarer Hardware möglich war. Als Folge der Fähigkeit, längere Kontexte zu verarbeiten, verbessert BigBird die Leistung erheblich bei verschiedenen NLP-Aufgaben wie Fragenbeantwortung und Zusammenfassung. Zudem schlagen wir neuartige Anwendungen auf Genomdaten vor.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp