HyperAIHyperAI

Command Palette

Search for a command to run...

vor 25 Tagen

Extract-0: Ein spezialisiertes Sprachmodell für die Informationsextraktion aus Dokumenten

Henrique Godoy

Extract-0: Ein spezialisiertes Sprachmodell für die Informationsextraktion aus Dokumenten

Abstract

Diese Arbeit präsentiert Extract-0, ein Sprachmodell mit 7 Milliarden Parametern, das speziell für die Informationsextraktion aus Dokumenten optimiert wurde und eine Leistung erzielt, die Modelle mit Parameternzahlen um mehrere Größenordnungen höher übertrifft. Durch eine neuartige Kombination aus synthetischer Datengenerierung, überwachtem Feintuning mittels Low-Rank Adaptation (LoRA) sowie Verstärkendem Lernen mittels Group Relative Policy Optimization (GRPO) erreicht Extract-0 eine durchschnittliche Belohnung von 0,573 auf einem Benchmark aus 1.000 unterschiedlichen Aufgaben zur Dokumentenextraktion – damit übertrifft es GPT-4.1 (0,457), o3 (0,464) und GPT-4.1-2025 (0,459). Die Trainingsmethode nutzt eine speziell entwickelte, gedächtnisbewahrende Pipeline zur synthetischen Datengenerierung, die 280.128 Trainingsbeispiele aus diversen Dokumentenquellen erzeugt, gefolgt von einer parameter-effizienten Feinjustierung, bei der lediglich 0,53 % der Modellgewichte (40,4 Mio. von insgesamt 7,66 Mrd. Parametern) angepasst werden. Im Verstärkungslernphase wird eine neuartige Belohnungsfunktion basierend auf semantischer Ähnlichkeit eingeführt, die die inhärente Mehrdeutigkeit bei Aufgaben der Informationsextraktion effektiv berücksichtigt. Diese Forschung zeigt, dass eine auf spezifische Aufgaben zugeschnittene Optimierung Modelle hervorbringen kann, die allgemeine Systeme überlegen sind, dabei aber erheblich weniger Rechenressourcen erfordern.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Extract-0: Ein spezialisiertes Sprachmodell für die Informationsextraktion aus Dokumenten | Forschungsarbeiten | HyperAI