Die Dokumentvektoren unter Verwendung der Kosinusähnlichkeit neu betrachtet

Der derzeitige Stand der Technik bezüglich der Testgenauigkeit (97,42 %) auf dem IMDB-Filmrezensionen-Datensatz wurde von \citet{thongtan-phienthrakul-2019-sentiment} berichtet und erreicht durch einen Logistischen Regressionsklassifikator, der auf Document Vectors basiert, die mittels Cosinus-Ähnlichkeit (DV-ngrams-cosine) berechnet wurden, wie in ihrer Arbeit vorgeschlagen, sowie auf Bag-of-N-grams (BON)-Vektoren, die durch naive-Bayes-gewichtete Skalierung transformiert wurden. Obwohl große, vortrainierte Transformer-basierte Modelle auf vielen Datensätzen und Aufgaben SOTA-Ergebnisse erzielt haben, konnte das oben genannte Modell bislang nicht übertroffen werden – trotz seiner erheblich geringeren Komplexität und der Tatsache, dass es lediglich auf dem IMDB-Datensatz vortrainiert wurde.In diesem Artikel beschreiben wir einen Fehler im Evaluierungsverfahren dieses Modells, der sich ergab, als wir dessen herausragende Leistung auf dem IMDB-Datensatz analysieren wollten. Wir zeigen zudem, dass die zuvor gemeldete Testgenauigkeit von 97,42 % ungültig ist und korrigiert werden muss auf 93,68 %. Darüber hinaus untersuchen wir die Modellleistung bei unterschiedlichen Mengen an Trainingsdaten (Teilmenge des IMDB-Datensatzes) und vergleichen sie mit dem Transformer-basierten RoBERTa-Modell. Die Ergebnisse zeigen, dass RoBERTa bei größeren Trainingsmengen eindeutig überlegen ist, das DV-ngrams-cosine-Modell jedoch bei sehr kleinen, beschrifteten Trainingsmengen (10 oder 20 Dokumente) eine bessere Leistung erzielt. Schließlich stellen wir ein Sub-Sampling-Verfahren vor, das auf naive-Bayes-gewichteten Ansätzen basiert und für den Trainingsprozess des DV-ngrams-cosine-Modells eingesetzt wird, was zu schnellerer Konvergenz und verbesserter Modellqualität führt.