HyperAIHyperAI
vor 17 Tagen

Die Dokumentvektoren unter Verwendung der Kosinusähnlichkeit neu betrachtet

Zhang Bingyu, Nikolay Arefyev
Die Dokumentvektoren unter Verwendung der Kosinusähnlichkeit neu betrachtet
Abstract

Der derzeitige Stand der Technik bezüglich der Testgenauigkeit (97,42 %) auf dem IMDB-Filmrezensionen-Datensatz wurde von \citet{thongtan-phienthrakul-2019-sentiment} berichtet und erreicht durch einen Logistischen Regressionsklassifikator, der auf Document Vectors basiert, die mittels Cosinus-Ähnlichkeit (DV-ngrams-cosine) berechnet wurden, wie in ihrer Arbeit vorgeschlagen, sowie auf Bag-of-N-grams (BON)-Vektoren, die durch naive-Bayes-gewichtete Skalierung transformiert wurden. Obwohl große, vortrainierte Transformer-basierte Modelle auf vielen Datensätzen und Aufgaben SOTA-Ergebnisse erzielt haben, konnte das oben genannte Modell bislang nicht übertroffen werden – trotz seiner erheblich geringeren Komplexität und der Tatsache, dass es lediglich auf dem IMDB-Datensatz vortrainiert wurde.In diesem Artikel beschreiben wir einen Fehler im Evaluierungsverfahren dieses Modells, der sich ergab, als wir dessen herausragende Leistung auf dem IMDB-Datensatz analysieren wollten. Wir zeigen zudem, dass die zuvor gemeldete Testgenauigkeit von 97,42 % ungültig ist und korrigiert werden muss auf 93,68 %. Darüber hinaus untersuchen wir die Modellleistung bei unterschiedlichen Mengen an Trainingsdaten (Teilmenge des IMDB-Datensatzes) und vergleichen sie mit dem Transformer-basierten RoBERTa-Modell. Die Ergebnisse zeigen, dass RoBERTa bei größeren Trainingsmengen eindeutig überlegen ist, das DV-ngrams-cosine-Modell jedoch bei sehr kleinen, beschrifteten Trainingsmengen (10 oder 20 Dokumente) eine bessere Leistung erzielt. Schließlich stellen wir ein Sub-Sampling-Verfahren vor, das auf naive-Bayes-gewichteten Ansätzen basiert und für den Trainingsprozess des DV-ngrams-cosine-Modells eingesetzt wird, was zu schnellerer Konvergenz und verbesserter Modellqualität führt.