HyperAIHyperAI

Command Palette

Search for a command to run...

Effiziente Langtextverarbeitung mit Kurztextmodellen

Maor Ivgi Uri Shaham Jonathan Berant

Zusammenfassung

Transformer-basierte vortrainierte Sprachmodelle (LMs) sind in der natürlichen Sprachverarbeitung weit verbreitet, können jedoch auf lange Sequenzen wie Geschichten, wissenschaftliche Artikel oder längere Dokumente nicht angewendet werden, da sie eine quadratische Komplexität aufweisen. Obwohl eine Vielzahl effizienter Transformer-Varianten vorgeschlagen wurde, beruhen diese typischerweise auf spezifischen Implementierungen, die eine kostenintensive Neutraining von Grund auf erfordern. In dieser Arbeit präsentieren wir SLED: SLiding-Encoder and Decoder, einen einfachen Ansatz zur Verarbeitung langer Textsequenzen, der bestehende, bewährte Kurztext-vortrainierte LMs wiederverwendet und nutzt. Konkret zerlegen wir die Eingabe in überlappende Blöcke, kodieren jeden Block mit einem Kurztext-LM-Encoder und nutzen den vortrainierten Decoder, um die Informationen über die Blöcke hinweg zu fusionieren (Fusion-in-Decoder). Durch kontrollierte Experimente zeigen wir, dass SLED eine praktikable Strategie für die Verarbeitung langer Texte darstellt, und evaluieren unseren Ansatz auf SCROLLS, einem Benchmark mit sieben Datensätzen, die eine breite Palette von Sprachverstehensaufgaben abdecken. Wir stellen fest, dass SLED mit spezialisierten Modellen konkurrieren kann, die bis zu 50-mal größer sind und einen dedizierten und kostspieligen Trainingsprozess erfordern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp