Command Palette
Search for a command to run...
Efficient Medical VIE via Reinforcement Learning Amélioration de la VIE médicale par l'apprentissage par renforcement
Lijun Liu Ruiyang Li Zhaocheng Liu Chenglin Zhu Chong Li Jiehan Cheng Qiang Ju Jian Xie

Résumé
L'Extraction d'Information Visuelle (EIV) convertit des images de documents non structurés en formats structurés tels que JSON, ce qui est crucial pour les applications médicales comme l'analyse de rapports et les consultations en ligne. Les méthodes traditionnelles s'appuient sur la reconnaissance optique de caractères (OCR) et les modèles linguistiques, tandis que les modèles multimodaux bout-à-bout offrent une génération directe de JSON. Cependant, les schémas spécifiques au domaine et les coûts élevés d'annotation limitent leur efficacité dans l'EIV médicale. Notre approche repose sur le cadre d'Apprentissage par Renforcement avec Récompenses Vérifiables (ARVR) pour relever ces défis en utilisant seulement 100 échantillons annotés. Notre méthode garantit la diversité du jeu de données, un mécanisme de récompense précision-rappel équilibré pour réduire les hallucinations et améliorer la couverture des champs, ainsi que des stratégies d'échantillonnage innovantes pour renforcer les capacités de raisonnement. En affinant Qwen2.5-VL-7B avec notre méthode ARVR, nous obtenons des performances de pointe sur les tâches d'EIV médicales, améliorant considérablement le F1, la précision et le rappel. Bien que nos modèles excellent dans des tâches similaires aux jeux de données médicaux, leurs performances baissent sur des tâches dissimilaires, soulignant la nécessité d'une optimisation spécifique au domaine. Des études de cas montrent davantage la valeur du raisonnement pendant l'entraînement et l'inférence pour l'EIV.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.