Équipe de Shanghai Jiao Tong : Nouvelle Méthode d'Amélioration des Modèles de Segmentation dans un Espace de Recherche Hétérogène
L’équipe de l’Innovation Center for Intelligent Connected Electric Vehicles de l’Université Jiao Tong de Shanghai, dirigée par le professeur Zhang Song'an, a récemment publié une étude majeure lors de la conférence IEEE/CVF International Conference on Computer Vision (ICCV), l’un des événements les plus prestigieux dans le domaine de la vision par ordinateur. Le papier, intitulé « Adapt Foundational Segmentation Models with Heterogeneous Searching Space », est principalement l'œuvre de Yi Li, étudiant en master à l’Institut de Technologie Avancée Pu Yuan, coencadré par la compagnie Ningde Times en 2023. Contexte de la Recherche Les modèles de segmentation fondamentaux (Foundational Segmentation Models) performants sur des images conventionnelles s’avèrent moins efficaces lorsqu’ils sont utilisés sur des domaines non traditionnels, tels que la détection de objets camouflés ou l'imagerie médicale. De plus, la préparation des jeux de données nécessaire pour le réglage fin (fine-tuning) est souvent complexe et temporelle, rendant cette méthode peu pratique. État de l’Art La plupart des techniques actuelles de prétraitement des images reposent sur des méthodes basées sur des règles (rule-based). Ces méthodes limitent l'efficacité du prétraitement, car elles sont souvent statiques et ne tiennent pas compte des particularités de chaque image. Les approches basées sur l'apprentissage (learning-based) offrent une plus grande flexibilité, mais manquent d'une description précise des degrés d'augmentation (par exemple, des ajustements de luminosité). Lorsque ces deux types de méthodes sont combinés, ils créent un espace de recherche hétérogène (Heterogeneous Searching Space). Résultats de la Recherche Cette étude présente un nouveau paradigme appelé « Augment to Adapt » qui vise à optimiser la segmentation d'images en utilisant des stratégies de prétraitement adaptées. Contrairement aux méthodes traditionnelles basées sur des règles, ce paradigme sélectionne la meilleur stratégie d'augmentation parmi 32 techniques différentes (22 basées sur des règles et 10 basées sur l'apprentissage), permettant ainsi de construire un espace de recherche hétérogène robuste et diversifié. Pour faciliter l’application de la meilleure stratégie dans des scénarios réels, les auteurs ont également mis en place une technique de distillation pour accélérer le processus de prétraitement. Les simulations réalisées sur neuf jeux de données publics, dont NJU2K, VT1K, CAMO, NC4K, COD10K, Kvasir-SEG, BUSI, KoletorSDDV2 et MTSD, ont montré une amélioration significative des performances de segmentation grâce à ce nouveau paradigme. Les domaines spécifiques sur lesquels le modèle a été testé incluent des images camouflées, des clichés médicaux et des captures routières, démontrant ainsi la polyvalence et l'efficacité de la méthode. Informations sur les Auteurs Yi Li est étudiant en master à l’Institut de Technologie Avancée Pu Yuan, spécialisé en électronique et télécommunications. Ses domaines de recherche incluent la vision par ordinateur, l'apprentissage automatique renforcé (reinforcement learning) et l'adaptation des modèles de segmentation à différents domaines. Zhang Song'an est assistant professor sur une piste longue durée (tenure track) à l’Institut de Technologie Avancée Pu Yuan de l’Université Jiao Tong de Shanghai et membre de l’Innovation Center for Intelligent Connected Electric Vehicles. Il a obtenu son diplôme d'ingénieur et sa maîtrise en ingénierie automobile à l'Université Tsinghua en 2013 et 2016, respectivement. En 2021, il a reçu son doctorat en ingénierie mécanique de l'Université du Michigan, où il a travaillé sous la direction du Professeur Peng Hui, directeur de Mcity. Après son doctorat, Zhang Song'an a rejoint le Ford Research Institute comme chercheur et a été nommé chair du comité de révision des propositions de projets conjoints Ford-universités en robotique. Il s'est joint à l’Université Jiao Tong de Shanghai en 2023. Les recherches de Zhang Song'an se concentrent sur l'algorithmique des systèmes de décision pour les véhicules autonomes, l'apprentissage renforcé, l'apprentissage meta-renforcé, l'intelligence corporelle industrielle et l'aide à la conception d'avions par l'IA. Il a déjà publié plus de 30 articles dans des revues et conférences de premier plan, dont TITS, TIV, CVPR et ICCV. Ce travail marque une avancée significative dans la capacité des modèles de segmentation à s'adapter à diverses conditions d'images, une compétence cruciale pour l'amélioration des systèmes automatisés dans des domaines tels que l'automobile, la médecine et la surveillance sécuritaire.