HyperAIHyperAI

Command Palette

Search for a command to run...

Stichprobeneinfluss bei tiefen aktiven Klassifikationen: Eine empirische Studie

Ameya Prabhu Charles Dognin Maneesh Singh

Zusammenfassung

Die steigenden Kosten und Zeitaufwendungen für die Datenannotation und das Training von Modellen stellen Engpässe bei der Ausbildung von tiefen neuronalen Netzen (DNN) auf großen Datensätzen dar. Die Identifizierung kleiner, repräsentativer Datensamples mittels Strategien wie aktives Lernen kann solche Engpässe reduzieren. Bisherige Arbeiten zum aktiven Lernen in der natürlichen Sprachverarbeitung (NLP) identifizieren das Problem der Stichprobenselektionsverzerrung bei Unsicherheits-basierten Abfragen und entwickeln kostenaufwändige Ansätze zur Lösung dieses Problems. In einer umfangreichen empirischen Studie zeigen wir, dass die Auswahl von Aktivitätsmengen mittels der Posterior-Entropie tiefer Modelle wie FastText.zip (FTZ) robust gegenüber Stichprobenselektionsverzerrungen und gegenüber verschiedenen algorithmischen Entscheidungen (z. B. Abfragegröße und -strategien) ist – im Gegensatz zu den Aussagen der traditionellen Literatur. Zudem zeigen wir, dass die FTZ-basierte Abfragemethode Stichprobenmengen erzeugt, die denen von aufwendigeren Ansätzen (z. B. Ensembles von Netzwerken) ähneln. Schließlich belegen wir die Wirksamkeit der ausgewählten Stichproben, indem wir extrem kleine, hochwertige Datensätze erstellen und diese für eine schnelle und kostengünstige Ausbildung großer Modelle nutzen. Auf Basis dieser Ergebnisse schlagen wir eine einfache Baseline für das aktive Textklassifikationslernen mit tiefen Modellen vor, die die derzeitigen State-of-the-Art-Methoden übertrifft. Wir erwarten, dass die vorgestellte Arbeit für die Datensatzkompression sowie für Probleme im Bereich aktives, halbüberwachtes oder Online-Lernen von Nutzen und informativ ist. Der Quellcode und die Modelle sind verfügbar unter: https://github.com/drimpossible/Sampling-Bias-Active-Learning


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp