il y a 2 mois

OneFormer : Un seul Transformers pour régir la segmentation universelle des images

Jitesh Jain; Jiachen Li; MangTik Chiu; Ali Hassani; Nikita Orlov; Humphrey Shi

Résumé

La segmentation d'images universelle n'est pas un concept nouveau. Les tentatives passées pour unifier la segmentation d'images au cours des dernières décennies incluent l'analyse de scènes, la segmentation panoramique et, plus récemment, de nouvelles architectures panoramiques. Cependant, ces architectures panoramiques ne parviennent pas véritablement à unifier la segmentation d'images car elles doivent être formées individuellement sur la segmentation sémantique, la segmentation d'instances ou la segmentation panoramique pour atteindre les meilleures performances. Idéalement, un cadre véritablement universel devrait être formé une seule fois et atteindre des performances de pointe dans les trois tâches de segmentation d'images. À cet égard, nous proposons OneFormer, un cadre de segmentation d'images universelle qui unifie la segmentation avec une conception multi-tâche formée une seule fois. Nous proposons tout d'abord une stratégie de formation conjointe conditionnée par la tâche qui permet de former sur les vérités terrain de chaque domaine (segmentation sémantique, instance et panoramique) au sein d'un seul processus de formation multi-tâche. Deuxièmement, nous introduisons un jeton de tâche pour conditionner notre modèle sur la tâche en cours, rendant ainsi notre modèle dynamique en fonction de la tâche afin de prendre en charge la formation et l'inférence multi-tâches. Troisièmement, nous proposons d'utiliser une perte contrastive entre requête et texte lors de la formation pour établir des distinctions inter-tâches et inter-classes plus précises. Notamment, notre modèle OneFormer unique surpasse les modèles spécialisés Mask2Former dans les trois tâches de segmentation sur ADE20k, CityScapes et COCO, malgré le fait que ces derniers soient formés individuellement sur chacune des trois tâches avec trois fois plus de ressources. Avec les nouveaux backbones ConvNeXt et DiNAT (ConvNeXt and DiNAT), nous observons encore une amélioration des performances. Nous croyons que OneFormer représente une étape significative vers une segmentation d'images plus universelle et accessible. Pour soutenir des recherches ultérieures, nous mettons notre code source et nos modèles à disposition sous licence open-source à l'adresse https://github.com/SHI-Labs/OneFormer.