HyperAIHyperAI
vor 15 Tagen

Zeitbewusste große Kernel-Faltung

Vasileios Lioutas, Yuhong Guo
Zeitbewusste große Kernel-Faltung
Abstract

Bislang verwenden die meisten modernsten Architekturen für Sequenzmodellierung Aufmerksamkeit (attention), um generative Modelle für sprachbasierte Aufgaben zu entwickeln. Einige dieser Modelle nutzen alle verfügbaren Sequenz-Token, um eine Aufmerksamkeitsverteilung zu erzeugen, was zu einer zeitlichen Komplexität von $O(n^2)$ führt. Alternativ setzen sie tiefenweise Faltungen mit softmax-normalisierten Kernen der Größe $k$ ein, die als begrenztes Fenster agierende Selbst-Aufmerksamkeit fungieren und eine zeitliche Komplexität von $O(k \cdot n)$ erzielen. In diesem Paper stellen wir Time-aware Large Kernel (TaLK) Faltungen vor, eine neuartige adaptive Faltung, die lernt, die Größe eines Summationskerns vorherzusagen, anstatt einen festen Kernel-Matrix zu verwenden. Diese Methode erreicht eine zeitliche Komplexität von $O(n)$ und macht den Prozess der Sequenzkodierung effektiv linear in der Anzahl der Token. Wir evaluieren die vorgeschlagene Methode anhand großer Standard-Datensätze für maschinelles Übersetzen, abstraktive Zusammenfassung und Sprachmodellierung und zeigen, dass TaLK-Faltungen eine effiziente Verbesserung gegenüber anderen auf Aufmerksamkeit oder Faltung basierenden Ansätzen darstellen.

Zeitbewusste große Kernel-Faltung | Neueste Forschungsarbeiten | HyperAI