HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Die Bestimmung der Quelle offizieller Texte: Kann SVM ULMFiT übertrumpfen?

{Marcelo Magalhães Silva de Sousa Teófilo Emidio de Campos Pedro Henrique Luz de Araujo}

Abstract

Amtsblätter sind eine reiche Quelle relevanter Informationen für die Öffentlichkeit. Ihre sorgfältige Analyse kann zur Aufdeckung von Betrugsfällen und Unregelmäßigkeiten beitragen, die eine Missverwaltung öffentlicher Mittel verhindern könnten. In diesem Beitrag präsentieren wir einen Datensatz, der aus Dokumenten des Amtsblatts des Bundesdistrikts besteht und sowohl annotierte Dokumente mit Angabe der Quelle als auch unbeschriftete Beispiele enthält. Wir trainieren, evaluieren und vergleichen ein Transfer-Learning-basiertes Modell, das ULMFiT nutzt, mit traditionellen Bag-of-Words-Modellen, die Support Vector Machines (SVM) und Naive Bayes als Klassifizierer verwenden. Wir stellen fest, dass SVM konkurrenzfähig ist; ihre Leistung ist marginal schlechter als die von ULMFiT, bietet jedoch deutlich schnellere Trainings- und Inferenzzeiten sowie geringeren rechnerischen Aufwand. Abschließend führen wir eine Ablationsanalyse durch, um den Einfluss der einzelnen Komponenten von ULMFiT auf die Modellleistung zu bewerten.

Benchmarks

BenchmarkMethodikMetriken
text-classification-on-dodf-dataSVM + tf-idf (no pre-trained vocab)
Average F1: 0.8755
Weighted F1: 0.8917
text-classification-on-dodf-dataULMFiT (pre-trained vocab, no gradual unfreezing)
Average F1: 0.8918
Weighted F1: 0.9257
text-classification-on-dodf-dataSVM + word counts (pre-trained vocab)
Average F1: 0.8782
Weighted F1: 0.9049
text-classification-on-dodf-dataULMFiT (pre-trained vocab)
Average F1: 0.8374
Weighted F1: 0.9088
text-classification-on-dodf-dataULMFiT (no pre-trained vocab)
Average F1: 0.8469
Weighted F1: 0.8974

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp