Die Bestimmung der Quelle offizieller Texte: Kann SVM ULMFiT übertrumpfen?
{Marcelo Magalhães Silva de Sousa Teófilo Emidio de Campos Pedro Henrique Luz de Araujo}
Abstract
Amtsblätter sind eine reiche Quelle relevanter Informationen für die Öffentlichkeit. Ihre sorgfältige Analyse kann zur Aufdeckung von Betrugsfällen und Unregelmäßigkeiten beitragen, die eine Missverwaltung öffentlicher Mittel verhindern könnten. In diesem Beitrag präsentieren wir einen Datensatz, der aus Dokumenten des Amtsblatts des Bundesdistrikts besteht und sowohl annotierte Dokumente mit Angabe der Quelle als auch unbeschriftete Beispiele enthält. Wir trainieren, evaluieren und vergleichen ein Transfer-Learning-basiertes Modell, das ULMFiT nutzt, mit traditionellen Bag-of-Words-Modellen, die Support Vector Machines (SVM) und Naive Bayes als Klassifizierer verwenden. Wir stellen fest, dass SVM konkurrenzfähig ist; ihre Leistung ist marginal schlechter als die von ULMFiT, bietet jedoch deutlich schnellere Trainings- und Inferenzzeiten sowie geringeren rechnerischen Aufwand. Abschließend führen wir eine Ablationsanalyse durch, um den Einfluss der einzelnen Komponenten von ULMFiT auf die Modellleistung zu bewerten.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| text-classification-on-dodf-data | SVM + tf-idf (no pre-trained vocab) | Average F1: 0.8755 Weighted F1: 0.8917 |
| text-classification-on-dodf-data | ULMFiT (pre-trained vocab, no gradual unfreezing) | Average F1: 0.8918 Weighted F1: 0.9257 |
| text-classification-on-dodf-data | SVM + word counts (pre-trained vocab) | Average F1: 0.8782 Weighted F1: 0.9049 |
| text-classification-on-dodf-data | ULMFiT (pre-trained vocab) | Average F1: 0.8374 Weighted F1: 0.9088 |
| text-classification-on-dodf-data | ULMFiT (no pre-trained vocab) | Average F1: 0.8469 Weighted F1: 0.8974 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.