vor 15 Tagen

Zeitbewusste große Kernel-Faltung

Vasileios Lioutas, Yuhong Guo

Abstract

Bislang verwenden die meisten modernsten Architekturen für Sequenzmodellierung Aufmerksamkeit (attention), um generative Modelle für sprachbasierte Aufgaben zu entwickeln. Einige dieser Modelle nutzen alle verfügbaren Sequenz-Token, um eine Aufmerksamkeitsverteilung zu erzeugen, was zu einer zeitlichen Komplexität von $O(n^2)$ führt. Alternativ setzen sie tiefenweise Faltungen mit softmax-normalisierten Kernen der Größe $k$ ein, die als begrenztes Fenster agierende Selbst-Aufmerksamkeit fungieren und eine zeitliche Komplexität von $O(k \cdot n)$ erzielen. In diesem Paper stellen wir Time-aware Large Kernel (TaLK) Faltungen vor, eine neuartige adaptive Faltung, die lernt, die Größe eines Summationskerns vorherzusagen, anstatt einen festen Kernel-Matrix zu verwenden. Diese Methode erreicht eine zeitliche Komplexität von $O(n)$ und macht den Prozess der Sequenzkodierung effektiv linear in der Anzahl der Token. Wir evaluieren die vorgeschlagene Methode anhand großer Standard-Datensätze für maschinelles Übersetzen, abstraktive Zusammenfassung und Sprachmodellierung und zeigen, dass TaLK-Faltungen eine effiziente Verbesserung gegenüber anderen auf Aufmerksamkeit oder Faltung basierenden Ansätzen darstellen.