MVP-Net : Réseau multi-vue FPN avec attention sensible à la position pour la détection universelle de lésions profondes
La détection universelle de lésions (DUL) sur des images de tomographie computée (TC) est un problème important mais sous-développé. Récemment, des approches basées sur l'apprentissage profond ont été proposées pour la DUL, visant à apprendre des caractéristiques représentatives à partir de données de TC annotées. Cependant, la faim de données des modèles d'apprentissage profond et la rareté des annotations médicales entravent ces approches dans leur progression.Dans cet article, nous proposons d'intégrer les connaissances du domaine issues de la pratique clinique dans la conception du modèle de détecteurs universels de lésions. Plus précisément, comme les radiologues ont tendance à examiner plusieurs fenêtres pour un diagnostic précis, nous modélisons explicitement ce processus et proposons un réseau pyramidal de caractéristiques multi-vues (FPN), où des caractéristiques multi-vues sont extraites d'images rendues avec différentes largeurs et niveaux de fenêtre ; pour combiner efficacement cette information multi-vue, nous proposons également un module d'attention sensible à la position.Avec cette conception de modèle proposée, le problème de la faim de données est atténué car la tâche d'apprentissage est facilitée par l'introduction correcte du contexte clinique. Nous montrons des résultats prometteurs avec le modèle proposé, enregistrant un gain absolu de $\mathbf{5,65\%}$ (en termes de sensibilité des [email protected]) par rapport à l'état de l'art précédent sur le jeu de données NIH DeepLesion.