De La Vision Par Ordinateur À L'ia Médicale, Une Conversation Avec Xie Weidi De L'université Jiao Tong De Shanghai : Définir Le Problème Est Plus Important Que Le Résoudre

En 2012, la légendaire « année du jugement dernier », l’Internet mobile a inauguré une période de croissance explosive. Avec la popularisation des réseaux 3G et la baisse des prix des smartphones, couplées à l'essor rapide des applications de communication représentées par WeChat et MiTalk, ainsi que des applications de commerce électronique et de paiement, ce domaine a connu un nouveau cycle de croissance. En tant que base de diverses applications innovantes, l’industrie des communications offre des perspectives de développement prometteuses.
« À l'époque, je pensais que les technologies de communication étaient déjà très matures et que la Chine était à l'avant-garde mondiale en la matière. Les principaux conflits entre les pays portaient davantage sur les protocoles de communication, qui dépassaient le cadre de la technologie », a déclaré Xie Weidi, titulaire de quatre années d'études de premier cycle à l'Université des Postes et Télécommunications de Pékin. À la croisée des chemins de sa vie, il a avoué sans détour : « Je n'aimais pas vraiment cette spécialisation. Bien sûr, il est aussi possible que je ne la comprenne pas bien. »
Immédiatement après, il choisit d’étudier à l’étranger et de changer d’orientation professionnelle. Il a terminé ses études de maîtrise, de doctorat et de postdoctorat et a travaillé dans le domaine de la vision par ordinateur à l'University College London (UCL) et à l'Université d'Oxford. En 2022, il est retourné en Chine et a rejoint l'Université Jiao Tong de Shanghai, apportant son accumulation dans le domaine de la vision par ordinateur à l'intelligence artificielle médicale, essayant d'ouvrir un nouveau champ de bataille.
On peut dire que les deux transitions du professeur Xie Weidi, des communications à la vision par ordinateur et de la vision par ordinateur à l’intelligence artificielle médicale, constituent également deux nœuds importants. L’hésitation dans la prise de décision, les défis liés à l’exploration de nouveaux domaines et le sentiment d’accomplissement après la publication des résultats sont autant de points forts de son CV.
Récemment, HyperAI a eu l’honneur de mener une interview approfondie avec le professeur Xie Weidi. S'appuyant sur son expérience personnelle, il a partagé avec nous son expérience de transformation de la vision par ordinateur vers l'IA pour les soins de santé, et a également réalisé une analyse approfondie des tendances de développement du secteur.
Les systèmes d’IA médicaux généraux peuvent générer une « émergence de l’intelligence »
« Beaucoup de gens ne comprennent pas pourquoi je souhaite développer un système d’intelligence artificielle médicale générale, alors que des modèles de diagnostic et de traitement de maladies spécifiques sont évidemment plus pratiques. » Aujourd’hui, alors que les grands mannequins s’imposent dans tous les domaines de la vie, la question de savoir s’il faut utiliser des produits spécialisés ou polyvalents a toujours été au centre des discussions dans l’industrie. Les modèles spécialisés peuvent montrer une plus grande précision et une plus grande praticité dans des domaines spécifiques, mais leur capacité de généralisation est limitée. La connaissance approfondie des modèles généraux peut relier différents domaines, mais leurs capacités dans des domaines spécifiques ne sont souvent pas aussi bonnes que celles des modèles propriétaires.
Selon Xie Weidi, les modèles spécialisés et les modèles généraux ont leurs propres avantages et inconvénients, « mais développer un système d'IA médicale générale est quelque chose que nous devons faire ». Il croit queL'universalité signifie que le modèle peut établir des connexions cachées entre des données de différentes modalités, générant ainsi ce que l'on appelle une « émergence d'intelligence », qui est cruciale pour le diagnostic des maladies, en particulier des maladies dont les causes ne sont pas claires.Par exemple, pour le problème de classification de la pneumonie A et de la pneumonie B, si des images et des textes sont utilisés pour la formation, ces données multimodales peuvent être connectées en série à la couche inférieure pour identifier les similitudes et les différences entre les deux symptômes de pneumonie et atteindre l'objectif de classification. Cependant, si seules des images sont utilisées pour la formation, le réseau risque de ne pas être en mesure d’apprendre cette relation. « Ainsi, du point de vue de la découverte scientifique, le modèle universel est d’une grande valeur. »
Si vous souhaitez construire un modèle médical universel multimodal, vous devez y injecter des connaissances médicales de la manière la plus complète possible. Cependant, les données dans le domaine médical sont affectées par de nombreux facteurs tels que l’éthique, la sécurité et la qualité, et sont généralement difficiles à obtenir et à utiliser. Pour relever ce défi,Xie Weidi a choisi de migrer la méthode de collecte de données en vision par ordinateur vers le domaine médical, c'est-à-dire d'explorer les données sur Internet.« Bien sûr, nous savons que les grands modèles formés par cette approche ne peuvent pas être utilisés cliniquement, mais cela peut mieux cultiver les talents et former la capacité de l'équipe à traiter les big data, comme la collecte, l'organisation et le nettoyage des données. »
Par exemple, l'équipe a collecté plus de 30 000 livres médicaux, a parcouru 4 millions d'articles médicaux à partir de PubMed Central et a collecté des articles et des livres médicaux en huit langues, dont le chinois, l'anglais, le russe et le japonais sur Internet, et les a convertis en corpus pouvant être utilisé pour former des modèles linguistiques.

De plus, nous avons exploité les données image-texte accessibles au public sur Internet, rassemblant plus de 250 000 scans 3D et plus d'un million d'images médicales papier 2D. De plus, afin de former un modèle de segmentation général, l'équipe a également standardisé près de 120 ensembles de données de segmentation d'images radiologiques accessibles au public sur le marché, comprenant plus de 30 000 images 2D/3D et des millions d'annotations au niveau des pixels, couvrant diverses modalités d'imagerie radiologique courantes, telles que l'IRM, la TDM et la TEP.Connaissant le rôle essentiel des ensembles de données médicales dans la recherche en IA médicale, l’équipe ouvrira la source de la plupart des ensembles de données qu’elle obtiendra.
Lors de la construction d'un modèle universel, l'équipe espère former conjointement toutes les données multimodales obtenues, y compris les images, le texte, la génomique, les signaux ECG, etc., et utiliser la localisation des lésions sur les images, le diagnostic au niveau du texte et le reporting comme formes de sortie les plus basiques. Pendant la formation,L’intégration des connaissances médicales est également un élément essentiel de la réalisation des fonctions générales.« Cela s'explique par le fait que les tâches des différents services de l'hôpital sont différentes et que les médecins ont tendance à se concentrer davantage sur leur propre partie. Nous espérons que le modèle universel pourra couvrir toutes les informations relatives aux examens, former une chaîne de réflexion étape par étape lors de la gestion des tâches et réaliser des tâches telles que le diagnostic différentiel », a expliqué Xie Weidi.

Quand le mentor est « indifférent », accumulez tranquillement de la force
Comme mentionné ci-dessus, lors du développement d’un système d’IA médicale générale, Xie Weidi a appliqué des méthodes de vision par ordinateur au domaine médical. C'est parce queAvant cela, il s’était consacré à la recherche en vision par ordinateur pendant près de 10 ans et avait accumulé des connaissances approfondies.Cependant, son choix initial de cette spécialisation était une coïncidence.
En tant qu'étudiant de premier cycle, Xie Weidi a étudié à l'Université des postes et télécommunications de Pékin. « Comme je ne m'intéressais pas à la communication, mes notes en licence étaient très mauvaises. J'avais peur de ne pas trouver d'emploi, alors j'ai choisi d'étudier à l'étranger », a-t-il déclaré en souriant.
En 2012, Xie Weidi est entré à l'Université de Londres pour poursuivre une maîtrise en vision par ordinateur. Cette fois, il a trouvé une orientation qui l’intéressait et a pris ses études très au sérieux. « Mon directeur de thèse pensait que j'étais tout à fait apte à faire de la recherche scientifique dans ce domaine et m'a suggéré de poursuivre un doctorat. » Le problème auquel il était confronté à l'époque était de savoir s'il devait choisir de poursuivre un doctorat à ses propres frais afin de poursuivre ses études, car il y avait très peu de bourses de doctorat au Royaume-Uni. « Mon superviseur m'a recommandé l'Université d'Oxford, donc même si je dois payer moi-même, l'investissement en vaudra la peine. »
Heureusement, en 2014, afin de mieux promouvoir le projet AlphaGo, DeepMind a décidé d'accroître la formation des talents dans le domaine de l'IA et a coopéré avec l'Université d'Oxford pour offrir des bourses. Xie Weidi a été le lauréat de la première bourse complète Oxford-Google DeepMind.Bien que la bourse de près d'un million de yuans de DeepMind ait résolu sa pression financière en temps opportun, le véritable problème auquel il était confronté était que l'attitude de laisser-faire de ses deux mentors l'a presque empêché d'obtenir son diplôme.
« Lors de mon doctorat, j'ai eu deux mentors très forts. L'un était le professeur Andrew Zisserman, spécialiste de la vision par ordinateur et membre de la Royal Society, considéré comme l'un des fondateurs de la CV ; l'autre était le professeur J. Alison Noble, spécialiste de l'imagerie médicale et membre de la Royal Society et de l'Academy of Engineering. À l'époque, ils pensaient tous deux que je m'impliquerais davantage dans leurs recherches respectives, ce qui m'a placé face à un dilemme. » Le Visual Geometry Group (VGG) de l'Université d'Oxford, où Xie Weidi se trouvait à l'époque, a attiré beaucoup d'attention pour le développement du réseau neuronal convolutif VGGNet. Les membres du groupe jouissaient généralement d’une très grande réputation au sein de la communauté universitaire internationale. Non seulement il a dû faire face à l’écart avec ses pairs qui s’amélioraient rapidement, mais il a également dû explorer constamment de nouveaux sujets de recherche.
Influencé par AlphaGo, l'apprentissage en profondeur est devenu très populaire à cette époque, et Xie Weidi a également développé un fort intérêt pour les modèles génératifs. Cependant, son mentor, le professeur Andrew Zisserman, préférait faire des recherches « non brûlantes mais plus précieuses ». « Lors de la réunion hebdomadaire, mes camarades de classe peuvent rendre compte de l'avancement de leur travail hebdomadaire à AZ, mais j'arrive généralement avec une pile de papiers et je ressors avec une pile de nouveaux papiers à lire. » Parallèlement, en raison du contrôle strict des données d’imagerie médicale au Royaume-Uni, il ne pouvait pas mener de recherches sans ces données et il n’était pas en mesure d’obtenir les commentaires de son autre mentor, J Alison Noble. « L’année précédant l’obtention de mon diplôme, je n’avais publié qu’un seul article d’atelier et j’ai fait part de mes commentaires à mes deux superviseurs, leur disant que si je continuais ainsi, je ne pourrais peut-être pas obtenir mon diplôme. »
Comme le dit le proverbe : « Le malheur peut être une bénédiction déguisée. » Étant donné que de nombreux sujets sélectionnés ont été rejetés par l’instructeur et n’ont pas pu être mis en œuvre,Pendant son temps libre, il lisait presque tous les articles de l'époque dans le domaine de la vision par ordinateur. Cette accumulation a également posé des bases solides pour ses futures recherches scientifiques.Comme il l'a dit : « Je pensais à l'époque que tant que mon instructeur pouvait déterminer mon sujet, je pourrais le terminer en quelques jours. »
En 2018, avec le soutien de ses deux mentors, Xie Weidi a publié 7 articles en vision par ordinateur, imagerie médicale et autres domaines et a obtenu son diplôme avec succès. AZ a également reconnu sa force et l'a invité à poursuivre ses études postdoctorales, spécialisées dans la recherche en vision par ordinateur, jusqu'à son retour en Chine en 2022.

La connaissance est la différence la plus essentielle entre la vision par ordinateur et la médecine
L’équilibre entre la famille et le travail préoccupe d’innombrables personnes, dont Xie Weidi.« La décision de retourner en Chine a été prise soudainement. Bien que j'étais resté à Oxford et que j'aie vu une offre de poste de professeur assistant, j'ai progressivement réalisé que l'environnement là-bas ne me permettait pas de poursuivre des recherches approfondies. D'autre part, étant jeune père, je n'avais ni les moyens financiers ni l'énergie nécessaires pour subvenir aux besoins de ma famille à l'époque. »
À mon avis,Xie Weidi a une personnalité unique et distinctive. Outre l’humilité et le pragmatisme valorisés dans la recherche scientifique, il est également audacieux et décisif.Dès qu’il a décidé de retourner en Chine, il a immédiatement contacté les universités nationales. Il n’a pas pris en compte des titres tels que « Jeune chercheur étranger exceptionnel » ou « Comparaison des prix de trois universités ». Il a simplement envoyé son CV à l'Université Jiao Tong de Shanghai et a été embauché avec succès.

Il est intéressant de noter que le professeur Zhang Ya de l'Université Jiao Tong de Shanghai a joué le rôle de « RH » dans son processus d'intégration, et sa connaissance du professeur Zhang Ya est issue d'un article de revue publié. « En 2018, le professeur Zhang Ya et ses étudiants ont voulu reproduire un article sur l'imagerie médicale que j'avais publié, alors ils m'ont ajouté sur WeChat. » C’est cette opportunité qui a ouvert la voie à son retour ultérieur en Chine. Après avoir envoyé son CV au professeur Zhang Ya, il a rapidement reçu une réponse. « Heureusement, l’école a rapidement fait avancer l’ensemble du processus. »
Après avoir rejoint l'Université Jiao Tong de Shanghai, en plus de poursuivre ses recherches originales en vision par ordinateur, il a commencé à se plonger dans l'intelligence artificielle médicale.À l'époque, je souhaitais me lancer dans la recherche en IA pour la science. Ayant une solide expérience du domaine médical et m'y intéressant, j'ai choisi cette voie.
Il convient de mentionner qu'en 2022, lorsque ChatGPT est apparu, Xie Weidi a décidé de commencer par le langage et d'abandonner l'apport d'imagerie médicale qui était très populaire à l'époque. « Je pense que la différence la plus fondamentale entre la médecine et la vision par ordinateur est la connaissance, car la médecine consiste davantage à trouver des preuves et dispose de connaissances systématiques et standardisées, mais il est difficile d'intégrer la connaissance dans le modèle d'images médicales dans le champ visuel. »Dans sa vision, l’équipe peut intégrer les connaissances médicales dans le modèle linguistique, puis aligner le modèle visuel avec le modèle linguistique pour transmettre les connaissances médicales au modèle visuel.
L'auteur pense que cela a peut-être été influencé par le professeur Andrew Zisserman.Chez Xie Weidi, nous pouvons profondément ressentir son intuition aiguë pour la recherche scientifique.Comme il l'a commenté à propos de son mentor : « De nombreux sujets d'AZ ne visent pas les points chauds à court terme, mais se concentrent sur la valeur à long terme. » Par exemple, lors du développement du modèle vision-langage PMC-CLIP, étant donné que de nombreuses études ont été menées pour la première fois, les étudiants de l'équipe n'ont pas pu comprendre pleinement l'importance du projet : pourquoi devraient-ils parcourir tous les documents sur Internet ? Pourquoi extraire des images et des annotations pour entraîner des modèles... « Même lorsque j'ai soumis l'article, le MICCAI l'a presque rejeté. »
Cependant, après un certain temps, le modèle vision-langage est soudainement devenu populaire et le modèle PMC-CLIP a également été classé « Young Scientist Publication Impact Award, Final List » par MICCAI, et ses réalisations ont également été reconnues. « Au début, j'ai eu du mal à convaincre mes étudiants de l'utilité de cette recherche. J'ai peut-être eu de la chance, car le sujet que j'ai choisi s'est avéré être un sujet qui a intéressé tout le monde par la suite. »
Au cours de l'entretien, le professeur Xie Weidi a mentionné la « chance » à plusieurs reprises : être admis à l'Université d'Oxford était une question de chance ; être l’un des premiers à recevoir la bourse Oxford-Google DeepMind était une question de chance ; avoir été embauché avec succès par l'Université Jiao Tong de Shanghai après son retour en Chine était un coup de chance ; le choix de la direction de la recherche et du chemin technique était aussi une question de chance... Mais à mon avis, la plupart du temps, la chance n'est pas sans fondement, c'est peut-être la préfiguration d'une action antérieure, ou peut-être est-ce l'accumulation de pouvoir au fil du temps qui a favorisé le bon choix du moment.
Définir le problème est plus important que le résoudre
Il convient de mentionner que Xie Weidi s'est un jour senti chanceux que « le sujet qu'il avait choisi soit quelque chose qui intéressait tout le monde plus tard ». Cependant, je crois que le choix du sujet de recherche reflète l’observation unique du chef d’équipe dans ce domaine, et Xie Weidi l’a qualifié de « problème de définition ». À son avis,Définir un problème est plus important que le résoudre. Tant qu’un problème significatif est défini, d’innombrables personnes le suivront et le résoudront.Nous devons donc réfléchir aux problèmes qui méritent le plus d’être résolus par le modèle à ce stade. C'est très important.
De plus, lorsque nous résolvons des problèmes, la « puissance de calcul et de données talentueuses » est indispensable.
Actuellement, le développement de l’IA pour les services en est encore à ses débuts. Les praticiens de l’IA ont plus d’avantages dans la construction de modèles et l’optimisation des cadres, tandis que les praticiens scientifiques sont plus aptes à localiser avec précision les problèmes scientifiques dans les domaines verticaux. Les deux parties ont exploré un modèle de coopération universelle. À cet égard, l'équipe de Xie Weidi a choisi de coopérer avec de nombreux enseignants et étudiants de la faculté de médecine de l'université Jiao Tong de Shanghai, en utilisant pleinement leurs connaissances professionnelles dans le domaine médical et en les laissant servir de consultants pour aider l'équipe à déterminer si l'orientation de la recherche a une valeur médicale pratique. En outre, ils agissent également en tant qu'« inspecteurs de qualité », responsables de la qualité des données échantillonnées et garantissant que les données sont suffisamment propres pour atteindre 90% ou plus.
Parallèlement, à mesure que la constitution de l’équipe s’améliore progressivement, les étudiants maîtrisent la technologie de l’exploration des données Web. Le prochain problème auquel ils sont confrontés est que les ressources de données Internet sont proches de l’épuisement. À cet égard, l’équipe espère coopérer avec les hôpitaux pour obtenir des données médicales de meilleure qualité et essayer de mettre en œuvre le modèle. Xie Weidi a souligné que« Axé sur la connaissance » ou « axé sur les données et la connaissance » est plus important que simplement « axé sur les données ».L’équipe espère donc mettre les connaissances médicales au cœur de ses préoccupations et travailler avec ses coéquipiers pour résoudre des problèmes plus pratiques.
Il convient de mentionner que l’explicabilité de l’IA médicale est depuis longtemps une préoccupation majeure pour les médecins. À cet égard, Xie Weidi estime queSi l’IA est suffisamment puissante pour surpasser les meilleurs médecins en termes de précision diagnostique, l’explicabilité ne sera plus un problème.Par exemple, le modèle Med-PaLM 2 lancé par Google a obtenu un score élevé de 86,5 à l’examen de qualification médicale USMLE. De plus, leur équipe a lancé successivement des modèles de langage médical de grande taille PMC-LLaMA, MMed-LLaMA, des modèles de langage visuel MedVInT, RadFM, un modèle de segmentation générale SAT, etc. De nombreux modèles sont considérés comme des références par l'industrie et ont été publiés dans des revues renommées/conférences de premier plan telles que NPJ Digital Medicine, Nature Communications, ICCV, ECCV, NeurIPS, MICCAI, etc. La vitesse d'itération de ces résultats modifie progressivement le point de vue des médecins sur l'IA, et l'établissement de relations de coopération de haute qualité sera attendu à l'avenir.
En termes de ressources informatiques et de soutien financier, l'Université Jiao Tong de Shanghai a également fourni un soutien complet aux recherches préliminaires de l'équipe et à la transformation future des résultats. Différentes équipes du collège explorent également activement les opportunités de coopération et l’atmosphère académique est forte.
Faites des recherches précieuses
Au cours de sa communication avec le professeur Xie Weidi, il a mentionné à plusieurs reprises qu’il espérait faire des recherches utiles.Selon lui, les recherches précédentes de l’équipe ne peuvent être considérées que comme « un prototype de jouet dans le monde universitaire », et le petit modèle doit être encore agrandi pour pouvoir être finalement mis en œuvre. Il espère que ces prototypes pourront servir de références à d’autres chercheurs et même à l’industrie, en indiquant à chacun quel type de données est nécessaire, comment traiter les données, comment construire et former des modèles et comment définir des instructions.
À l’avenir, l’équipe prévoit de créer des super instructions orientées vers la clinique pour intégrer la formation à plus de 100 tâches intéressantes pour les médecins, permettant au modèle de se concentrer sur la résolution des besoins cliniques réels. À cet égard, il a commenté : « Les modèles de langage traditionnels sont principalement évalués à l'aide de questions à choix multiples, mais lorsque vous communiquez avec des médecins, vous constaterez qu'ils ne se soucient pas du score obtenu aux questions à choix multiples, mais se soucient davantage de savoir si le modèle peut résoudre des problèmes pratiques, comme être compétent pour les tâches cliniques. »
En outre, l’équipe a commencé à se pencher sur des recherches connexes aux niveaux de la génomique, de l’ADN, de l’ARN et des acides aminés, dépassant ainsi les limites de la dépendance passée aux images et aux textes. Ils espèrent créer davantage de possibilités pour le diagnostic des maladies rares et le développement de nouveaux médicaments, et nous attendons avec impatience leurs futurs résultats.
Pour plus de détails, veuillez consulter Google Scholar de Xie Weidi :
https://scholar.google.com/citations?user=Vtrqj4gAAAAJ&hl=zh-CN