HyperAIHyperAI

Command Palette

Search for a command to run...

Inférer la source de textes officiels : le SVM peut-il surpasser ULMFiT ?

Marcelo Magalhães Silva de Sousa Teófilo Emidio de Campos Pedro Henrique Luz de Araujo

Résumé

Les journaux officiels constituent une source riche d'informations pertinentes pour le public. Une analyse attentive de ces documents peut permettre de détecter des fraudes et des irrégularités, contribuant ainsi à prévenir la mauvaise gestion des fonds publics. Ce papier présente un jeu de données composé de documents provenant du Journal Officiel du District Fédéral, incluant à la fois des échantillons annotés selon leur source et des documents non étiquetés. Nous entraînons, évaluons et comparons un modèle fondé sur le transfert d'apprentissage utilisant ULMFiT avec des modèles traditionnels basés sur le « bag-of-words » et utilisant pour classificateurs le SVM et le Naive Bayes. Nous constatons que le SVM se révèle compétitif : bien que sa performance soit légèrement inférieure à celle d'ULMFiT, elle est obtenue avec un temps d'entraînement et d'inférence beaucoup plus rapide, ainsi qu'une consommation informatique nettement réduite. Enfin, nous menons une analyse d'ablation afin d'évaluer l'impact des différentes composantes d'ULMFiT sur la performance globale du modèle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp