HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Inférer la source de textes officiels : le SVM peut-il surpasser ULMFiT ?

{Marcelo Magalhães Silva de Sousa Teófilo Emidio de Campos Pedro Henrique Luz de Araujo}

Résumé

Les journaux officiels constituent une source riche d'informations pertinentes pour le public. Une analyse attentive de ces documents peut permettre de détecter des fraudes et des irrégularités, contribuant ainsi à prévenir la mauvaise gestion des fonds publics. Ce papier présente un jeu de données composé de documents provenant du Journal Officiel du District Fédéral, incluant à la fois des échantillons annotés selon leur source et des documents non étiquetés. Nous entraînons, évaluons et comparons un modèle fondé sur le transfert d'apprentissage utilisant ULMFiT avec des modèles traditionnels basés sur le « bag-of-words » et utilisant pour classificateurs le SVM et le Naive Bayes. Nous constatons que le SVM se révèle compétitif : bien que sa performance soit légèrement inférieure à celle d'ULMFiT, elle est obtenue avec un temps d'entraînement et d'inférence beaucoup plus rapide, ainsi qu'une consommation informatique nettement réduite. Enfin, nous menons une analyse d'ablation afin d'évaluer l'impact des différentes composantes d'ULMFiT sur la performance globale du modèle.

Benchmarks

BenchmarkMéthodologieMétriques
text-classification-on-dodf-dataSVM + tf-idf (no pre-trained vocab)
Average F1: 0.8755
Weighted F1: 0.8917
text-classification-on-dodf-dataULMFiT (pre-trained vocab, no gradual unfreezing)
Average F1: 0.8918
Weighted F1: 0.9257
text-classification-on-dodf-dataSVM + word counts (pre-trained vocab)
Average F1: 0.8782
Weighted F1: 0.9049
text-classification-on-dodf-dataULMFiT (pre-trained vocab)
Average F1: 0.8374
Weighted F1: 0.9088
text-classification-on-dodf-dataULMFiT (no pre-trained vocab)
Average F1: 0.8469
Weighted F1: 0.8974

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Inférer la source de textes officiels : le SVM peut-il surpasser ULMFiT ? | Articles de recherche | HyperAI