HyperAIHyperAI

Command Palette

Search for a command to run...

Zeitbewusste große Kernel-Faltung

Vasileios Lioutas Yuhong Guo

Zusammenfassung

Bislang verwenden die meisten modernsten Architekturen für Sequenzmodellierung Aufmerksamkeit (attention), um generative Modelle für sprachbasierte Aufgaben zu entwickeln. Einige dieser Modelle nutzen alle verfügbaren Sequenz-Token, um eine Aufmerksamkeitsverteilung zu erzeugen, was zu einer zeitlichen Komplexität von O(n2)O(n^2)O(n2) führt. Alternativ setzen sie tiefenweise Faltungen mit softmax-normalisierten Kernen der Größe kkk ein, die als begrenztes Fenster agierende Selbst-Aufmerksamkeit fungieren und eine zeitliche Komplexität von O(kn)O(k \cdot n)O(kn) erzielen. In diesem Paper stellen wir Time-aware Large Kernel (TaLK) Faltungen vor, eine neuartige adaptive Faltung, die lernt, die Größe eines Summationskerns vorherzusagen, anstatt einen festen Kernel-Matrix zu verwenden. Diese Methode erreicht eine zeitliche Komplexität von O(n)O(n)O(n) und macht den Prozess der Sequenzkodierung effektiv linear in der Anzahl der Token. Wir evaluieren die vorgeschlagene Methode anhand großer Standard-Datensätze für maschinelles Übersetzen, abstraktive Zusammenfassung und Sprachmodellierung und zeigen, dass TaLK-Faltungen eine effiziente Verbesserung gegenüber anderen auf Aufmerksamkeit oder Faltung basierenden Ansätzen darstellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp