PMC-VQA : Ajustement d'instructions visuelles pour le réponse aux questions médicales visuelles

Le Medical Visual Question Answering (MedVQA) offre une opportunité considérable pour améliorer la précision diagnostique et la prestation des soins de santé en utilisant l'intelligence artificielle pour interpréter et répondre à des questions basées sur des images médicales. Dans cette étude, nous reformulons le problème du MedVQA comme une tâche de génération qui suit naturellement l'interaction homme-machine et proposons un modèle basé sur la génération pour la compréhension visuelle médicale en alignant les informations visuelles d'un encodeur visuel pré-entraîné avec un grand modèle linguistique. Nous établissons un pipeline évolutif pour construire un ensemble de données de questions-réponses visuelles médicales à grande échelle, nommé PMC-VQA, qui contient 227 000 paires Q-R (question-réponse) de 149 000 images couvrant diverses modalités ou maladies. Nous entraînons le modèle proposé sur PMC-VQA puis le peaufinons sur plusieurs benchmarks publics, tels que VQA-RAD, SLAKE et Image-Clef-2019, surpassant largement les modèles MedVQA existants dans la génération de réponses libres pertinentes et précises. De plus, nous proposons un ensemble de test ayant fait l'objet d'une vérification manuelle, qui est nettement plus difficile, servant à mieux surveiller le développement des méthodes MedVQA génératives. Pour faciliter une évaluation et une comparaison exhaustives, nous avons maintenu un classement à l'adresse https://paperswithcode.com/paper/pmc-vqa-visual-instruction-tuning-for-medical, offrant une ressource centralisée pour suivre les progrès et évaluer les approches de pointe. Le dataset PMC-VQA apparaît comme une ressource essentielle pour ce domaine de recherche, et le MedVInT représente une avancée majeure dans le domaine du MedVQA.