HyperAIHyperAI

Command Palette

Search for a command to run...

OneFormer : Un seul Transformers pour régir la segmentation universelle des images

Jitesh Jain Jiachen Li MangTik Chiu Ali Hassani Nikita Orlov Humphrey Shi

Résumé

La segmentation d'images universelle n'est pas un concept nouveau. Les tentatives passées pour unifier la segmentation d'images au cours des dernières décennies incluent l'analyse de scènes, la segmentation panoramique et, plus récemment, de nouvelles architectures panoramiques. Cependant, ces architectures panoramiques ne parviennent pas véritablement à unifier la segmentation d'images car elles doivent être formées individuellement sur la segmentation sémantique, la segmentation d'instances ou la segmentation panoramique pour atteindre les meilleures performances. Idéalement, un cadre véritablement universel devrait être formé une seule fois et atteindre des performances de pointe dans les trois tâches de segmentation d'images. À cet égard, nous proposons OneFormer, un cadre de segmentation d'images universelle qui unifie la segmentation avec une conception multi-tâche formée une seule fois. Nous proposons tout d'abord une stratégie de formation conjointe conditionnée par la tâche qui permet de former sur les vérités terrain de chaque domaine (segmentation sémantique, instance et panoramique) au sein d'un seul processus de formation multi-tâche. Deuxièmement, nous introduisons un jeton de tâche pour conditionner notre modèle sur la tâche en cours, rendant ainsi notre modèle dynamique en fonction de la tâche afin de prendre en charge la formation et l'inférence multi-tâches. Troisièmement, nous proposons d'utiliser une perte contrastive entre requête et texte lors de la formation pour établir des distinctions inter-tâches et inter-classes plus précises. Notamment, notre modèle OneFormer unique surpasse les modèles spécialisés Mask2Former dans les trois tâches de segmentation sur ADE20k, CityScapes et COCO, malgré le fait que ces derniers soient formés individuellement sur chacune des trois tâches avec trois fois plus de ressources. Avec les nouveaux backbones ConvNeXt et DiNAT (ConvNeXt and DiNAT), nous observons encore une amélioration des performances. Nous croyons que OneFormer représente une étape significative vers une segmentation d'images plus universelle et accessible. Pour soutenir des recherches ultérieures, nous mettons notre code source et nos modèles à disposition sous licence open-source à l'adresse https://github.com/SHI-Labs/OneFormer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp