Command Palette
Search for a command to run...
Effiziente medizinische VIE durch Reinforcement Learning
Lijun Liu Ruiyang Li Zhaocheng Liu Chenglin Zhu Chong Li Jiehan Cheng Qiang Ju Jian Xie

Abstract
Visuelle Informationsextraktion (VIE) wandelt unstrukturierte Dokumentbilder in strukturierte Formate wie JSON um, was für medizinische Anwendungen wie Berichtsanalysen und Online-Beratungen von entscheidender Bedeutung ist. Traditionelle Methoden basieren auf OCR und Sprachmodellen, während end-to-end multimodale Modelle eine direkte JSON-Generierung ermöglichen. Dennoch begrenzen domänenspezifische Schemata und hohe Annotationskosten ihre Effektivität in der medizinischen VIE. Unser Ansatz stützt sich auf das Framework des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), um diese Herausforderungen mit nur 100 annotierten Stichproben zu bewältigen. Unsere Methode gewährleistet die Vielfalt des Datensatzes, ein ausgewogenes Präzision-Recall-Belohnungsmechanismus zur Reduzierung von Halluzinationen und Verbesserung der Feldabdeckung sowie innovative Abtaststrategien zur Steigerung der Schließleistungsfähigkeit. Durch Feinabstimmung von Qwen2.5-VL-7B mit unserer RLVR-Methode erreichen wir Spitzenleistungen bei medizinischen VIE-Aufgaben, wobei sich F1-Wert, Präzision und Recall erheblich verbessern. Obwohl unsere Modelle bei Aufgaben ähnlich medizinischen Datensätzen hervorragend abschneiden, sinkt die Leistung bei unähnlichen Aufgaben, was die Notwendigkeit einer domänenspezifischen Optimierung unterstreicht. Fallstudien verdeutlichen zudem den Wert des Schließleistungsvorgangs sowohl während der Trainings- als auch der Inferenzphase für VIE.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.