Stichprobeneinfluss bei tiefen aktiven Klassifikationen: Eine empirische Studie

Die steigenden Kosten und Zeitaufwendungen für die Datenannotation und das Training von Modellen stellen Engpässe bei der Ausbildung von tiefen neuronalen Netzen (DNN) auf großen Datensätzen dar. Die Identifizierung kleiner, repräsentativer Datensamples mittels Strategien wie aktives Lernen kann solche Engpässe reduzieren. Bisherige Arbeiten zum aktiven Lernen in der natürlichen Sprachverarbeitung (NLP) identifizieren das Problem der Stichprobenselektionsverzerrung bei Unsicherheits-basierten Abfragen und entwickeln kostenaufwändige Ansätze zur Lösung dieses Problems. In einer umfangreichen empirischen Studie zeigen wir, dass die Auswahl von Aktivitätsmengen mittels der Posterior-Entropie tiefer Modelle wie FastText.zip (FTZ) robust gegenüber Stichprobenselektionsverzerrungen und gegenüber verschiedenen algorithmischen Entscheidungen (z. B. Abfragegröße und -strategien) ist – im Gegensatz zu den Aussagen der traditionellen Literatur. Zudem zeigen wir, dass die FTZ-basierte Abfragemethode Stichprobenmengen erzeugt, die denen von aufwendigeren Ansätzen (z. B. Ensembles von Netzwerken) ähneln. Schließlich belegen wir die Wirksamkeit der ausgewählten Stichproben, indem wir extrem kleine, hochwertige Datensätze erstellen und diese für eine schnelle und kostengünstige Ausbildung großer Modelle nutzen. Auf Basis dieser Ergebnisse schlagen wir eine einfache Baseline für das aktive Textklassifikationslernen mit tiefen Modellen vor, die die derzeitigen State-of-the-Art-Methoden übertrifft. Wir erwarten, dass die vorgestellte Arbeit für die Datensatzkompression sowie für Probleme im Bereich aktives, halbüberwachtes oder Online-Lernen von Nutzen und informativ ist. Der Quellcode und die Modelle sind verfügbar unter: https://github.com/drimpossible/Sampling-Bias-Active-Learning