HyperAIHyperAI

Command Palette

Search for a command to run...

Die Dokumentvektoren unter Verwendung der Kosinusähnlichkeit neu betrachtet

Zhang Bingyu Nikolay Arefyev

Zusammenfassung

Der derzeitige Stand der Technik bezüglich der Testgenauigkeit (97,42 %) auf dem IMDB-Filmrezensionen-Datensatz wurde von \citet{thongtan-phienthrakul-2019-sentiment} berichtet und erreicht durch einen Logistischen Regressionsklassifikator, der auf Document Vectors basiert, die mittels Cosinus-Ähnlichkeit (DV-ngrams-cosine) berechnet wurden, wie in ihrer Arbeit vorgeschlagen, sowie auf Bag-of-N-grams (BON)-Vektoren, die durch naive-Bayes-gewichtete Skalierung transformiert wurden. Obwohl große, vortrainierte Transformer-basierte Modelle auf vielen Datensätzen und Aufgaben SOTA-Ergebnisse erzielt haben, konnte das oben genannte Modell bislang nicht übertroffen werden – trotz seiner erheblich geringeren Komplexität und der Tatsache, dass es lediglich auf dem IMDB-Datensatz vortrainiert wurde.In diesem Artikel beschreiben wir einen Fehler im Evaluierungsverfahren dieses Modells, der sich ergab, als wir dessen herausragende Leistung auf dem IMDB-Datensatz analysieren wollten. Wir zeigen zudem, dass die zuvor gemeldete Testgenauigkeit von 97,42 % ungültig ist und korrigiert werden muss auf 93,68 %. Darüber hinaus untersuchen wir die Modellleistung bei unterschiedlichen Mengen an Trainingsdaten (Teilmenge des IMDB-Datensatzes) und vergleichen sie mit dem Transformer-basierten RoBERTa-Modell. Die Ergebnisse zeigen, dass RoBERTa bei größeren Trainingsmengen eindeutig überlegen ist, das DV-ngrams-cosine-Modell jedoch bei sehr kleinen, beschrifteten Trainingsmengen (10 oder 20 Dokumente) eine bessere Leistung erzielt. Schließlich stellen wir ein Sub-Sampling-Verfahren vor, das auf naive-Bayes-gewichteten Ansätzen basiert und für den Trainingsprozess des DV-ngrams-cosine-Modells eingesetzt wird, was zu schnellerer Konvergenz und verbesserter Modellqualität führt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp