il y a 25 jours

Extrait-0 : Un modèle linguistique spécialisé pour l'extraction d'information documentaire

Henrique Godoy

Résumé

Cet article présente Extract-0, un modèle linguistique de 7 milliards de paramètres spécifiquement optimisé pour l’extraction d’informations à partir de documents, atteignant des performances supérieures à celles de modèles dont le nombre de paramètres est plusieurs ordres de grandeur plus élevé. Grâce à une combinaison originale de génération de données synthétiques, de fine-tuning supervisé par adaptation à faible rang (LoRA) et d’apprentissage par renforcement via l’optimisation politique relative par groupe (GRPO), Extract-0 obtient une récompense moyenne de 0,573 sur une base de test comprenant 1 000 tâches diverses d’extraction documentaire, surpassant ainsi GPT-4.1 (0,457), o3 (0,464) et GPT-4.1-2025 (0,459). La méthode d’entraînement repose sur un pipeline de génération de données synthétiques préservant la mémoire, qui produit 280 128 exemples d’entraînement à partir de sources documentaires diverses, suivi d’un fine-tuning efficace en termes de paramètres, qui modifie uniquement 0,53 % des poids du modèle (40,4 millions sur 7,66 milliards de paramètres). La phase d’apprentissage par renforcement introduit une nouvelle fonction de récompense fondée sur la similarité sémantique, capable de gérer l’ambiguïté inhérente aux tâches d’extraction d’information. Cette recherche démontre que l’optimisation spécifique à une tâche peut produire des modèles dépassant les systèmes généralistes, tout en nécessitant des ressources computationnelles significativement réduites.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Extrait-0 : Un modèle linguistique spécialisé pour l'extraction d'information documentaire

Henrique Godoy

Résumé

Construire l'IA avec l'IA

Hyper Newsletters