Effiziente Langtextverarbeitung mit Kurztextmodellen

Transformer-basierte vortrainierte Sprachmodelle (LMs) sind in der natürlichen Sprachverarbeitung weit verbreitet, können jedoch auf lange Sequenzen wie Geschichten, wissenschaftliche Artikel oder längere Dokumente nicht angewendet werden, da sie eine quadratische Komplexität aufweisen. Obwohl eine Vielzahl effizienter Transformer-Varianten vorgeschlagen wurde, beruhen diese typischerweise auf spezifischen Implementierungen, die eine kostenintensive Neutraining von Grund auf erfordern. In dieser Arbeit präsentieren wir SLED: SLiding-Encoder and Decoder, einen einfachen Ansatz zur Verarbeitung langer Textsequenzen, der bestehende, bewährte Kurztext-vortrainierte LMs wiederverwendet und nutzt. Konkret zerlegen wir die Eingabe in überlappende Blöcke, kodieren jeden Block mit einem Kurztext-LM-Encoder und nutzen den vortrainierten Decoder, um die Informationen über die Blöcke hinweg zu fusionieren (Fusion-in-Decoder). Durch kontrollierte Experimente zeigen wir, dass SLED eine praktikable Strategie für die Verarbeitung langer Texte darstellt, und evaluieren unseren Ansatz auf SCROLLS, einem Benchmark mit sieben Datensätzen, die eine breite Palette von Sprachverstehensaufgaben abdecken. Wir stellen fest, dass SLED mit spezialisierten Modellen konkurrieren kann, die bis zu 50-mal größer sind und einen dedizierten und kostspieligen Trainingsprozess erfordern.