HyperAIHyperAI

Command Palette

Search for a command to run...

Extrait-0 : Un modèle linguistique spécialisé pour l'extraction d'information documentaire

Henrique Godoy

Résumé

Cet article présente Extract-0, un modèle linguistique de 7 milliards de paramètres spécifiquement optimisé pour l’extraction d’informations à partir de documents, atteignant des performances supérieures à celles de modèles dont le nombre de paramètres est plusieurs ordres de grandeur plus élevé. Grâce à une combinaison originale de génération de données synthétiques, de fine-tuning supervisé par adaptation à faible rang (LoRA) et d’apprentissage par renforcement via l’optimisation politique relative par groupe (GRPO), Extract-0 obtient une récompense moyenne de 0,573 sur une base de test comprenant 1 000 tâches diverses d’extraction documentaire, surpassant ainsi GPT-4.1 (0,457), o3 (0,464) et GPT-4.1-2025 (0,459). La méthode d’entraînement repose sur un pipeline de génération de données synthétiques préservant la mémoire, qui produit 280 128 exemples d’entraînement à partir de sources documentaires diverses, suivi d’un fine-tuning efficace en termes de paramètres, qui modifie uniquement 0,53 % des poids du modèle (40,4 millions sur 7,66 milliards de paramètres). La phase d’apprentissage par renforcement introduit une nouvelle fonction de récompense fondée sur la similarité sémantique, capable de gérer l’ambiguïté inhérente aux tâches d’extraction d’information. Cette recherche démontre que l’optimisation spécifique à une tâche peut produire des modèles dépassant les systèmes généralistes, tout en nécessitant des ressources computationnelles significativement réduites.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Extrait-0 : Un modèle linguistique spécialisé pour l'extraction d'information documentaire | Articles | HyperAI