Die Bestimmung der Quelle offizieller Texte: Kann SVM ULMFiT übertrumpfen?
Amtsblätter sind eine reiche Quelle relevanter Informationen für die Öffentlichkeit. Ihre sorgfältige Analyse kann zur Aufdeckung von Betrugsfällen und Unregelmäßigkeiten beitragen, die eine Missverwaltung öffentlicher Mittel verhindern könnten. In diesem Beitrag präsentieren wir einen Datensatz, der aus Dokumenten des Amtsblatts des Bundesdistrikts besteht und sowohl annotierte Dokumente mit Angabe der Quelle als auch unbeschriftete Beispiele enthält. Wir trainieren, evaluieren und vergleichen ein Transfer-Learning-basiertes Modell, das ULMFiT nutzt, mit traditionellen Bag-of-Words-Modellen, die Support Vector Machines (SVM) und Naive Bayes als Klassifizierer verwenden. Wir stellen fest, dass SVM konkurrenzfähig ist; ihre Leistung ist marginal schlechter als die von ULMFiT, bietet jedoch deutlich schnellere Trainings- und Inferenzzeiten sowie geringeren rechnerischen Aufwand. Abschließend führen wir eine Ablationsanalyse durch, um den Einfluss der einzelnen Komponenten von ULMFiT auf die Modellleistung zu bewerten.