il y a 17 jours

Mots visuels transférables : Exploiter les sémantiques des motifs anatomiques pour l'apprentissage auto-supervisé

Fatemeh Haghighi, Mohammad Reza Hosseinzadeh Taher, Zongwei Zhou, Michael B. Gotway, Jianming Liang

Résumé

Cet article présente un nouveau concept appelé « mots visuels transférables » (TransVW), visant à améliorer l’efficacité de l’annotation dans le cadre de l’apprentissage profond pour l’analyse d’images médicales. L’imagerie médicale—axée sur des régions spécifiques du corps dans un but clinique précis—génère des images présentant une grande similarité anatomique entre les patients, ainsi que des motifs anatomiques complexes à travers les images, qui portent des significations riches liées à l’anatomie humaine et constituent naturellement des « mots visuels ». Nous démontrons que ces mots visuels peuvent être automatiquement extraits en s’appuyant sur une cohérence anatomique via une découverte autonome, et que ces mots visuels ainsi découverts peuvent servir de signaux de supervision forts et gratuits pour les modèles profonds afin d’apprendre des représentations d’images génériques riches en sémantique, via une auto-supervision (auto-classification et auto-restauration). Nos expérimentations étendues démontrent l’efficacité en matière d’annotation du TransVW, en offrant des performances supérieures et une convergence plus rapide, tout en réduisant le coût d’annotation dans plusieurs applications. Le TransVW présente plusieurs avantages importants : (1) il s’agit d’un schéma entièrement autodidacte, exploitant la sémantique des mots visuels pour l’apprentissage auto-supervisé, sans nécessiter d’annotation par des experts ; (2) l’apprentissage des mots visuels est une stratégie additionnelle, qui complète les méthodes existantes d’auto-supervision et améliore leurs performances ; (3) les représentations d’images apprises sont des modèles enrichis en sémantique, qui se sont révélés plus robustes et généralisables, permettant ainsi de réduire considérablement les efforts d’annotation dans diverses applications grâce au transfert d’apprentissage. Le code source, les modèles pré-entraînés et les mots visuels soigneusement curatifs sont disponibles à l’adresse suivante : https://github.com/JLiangLab/TransVW.