Baseline-Modelle verdienen mehr Anerkennung: Über einfache word-embedding-basierte Modelle und zugehörige Pooling-Mechanismen

Viele Deep-Learning-Architekturen wurden vorgeschlagen, um die Komposition in Textsequenzen zu modellieren. Diese Architekturen erfordern eine beträchtliche Anzahl von Parametern und teure Berechnungen. Allerdings fehlt es an einer gründlichen Bewertung des zusätzlichen Nutzens komplexer kompositioneller Funktionen. In dieser Arbeit führen wir eine punktgenaue vergleichende Studie zwischen einfachen wortbasierten Modellen (Simple Word-Embedding-based Models, SWEMs), die parameterfreie Pooling-Operationen verwenden, und wortbasierten RNN/CNN-Modellen durch. Überraschenderweise zeigen SWEMs in den meisten betrachteten Fällen vergleichbare oder sogar überlegene Leistungen. Auf Basis dieses Verständnisses schlagen wir zwei zusätzliche Pooling-Strategien für gelernte Wort-Einbettungen vor: (i) eine Max-Pooling-Operation zur Verbesserung der Interpretierbarkeit; und (ii) eine hierarchische Pooling-Operation, die räumliche (n-Gramm)-Informationen innerhalb von Textsequenzen beibehält. Wir präsentieren Experimente auf 17 Datensätzen, die drei Aufgaben umfassen: (i) Dokumentklassifizierung (lange Dokumente); (ii) Textsequenz-Matching; und (iii) kurze Textaufgaben, einschließlich Klassifizierung und Tagging. Der Quellcode und die Datensätze können unter https://github.com/dinghanshen/SWEM abgerufen werden.