HyperAIHyperAI
il y a 7 jours

Un cadre simple pour la segmentation et la détection à vocabulaire ouvert

Hao Zhang, Feng Li, Xueyan Zou, Shilong Liu, Chunyuan Li, Jianfeng Gao, Jianwei Yang, Lei Zhang
Un cadre simple pour la segmentation et la détection à vocabulaire ouvert
Résumé

Nous présentons OpenSeeD, un cadre simple de segmentation et détection à vocabulaire ouvert qui apprend simultanément à partir de différentes bases de données de segmentation et de détection. Pour combler le fossé entre le vocabulaire et le niveau de granularité des annotations, nous introduisons d'abord un encodeur de texte pré-entraîné afin de représenter tous les concepts visuels présents dans les deux tâches, et d'apprendre un espace sémantique commun pour celles-ci. Ce modèle obtient des résultats raisonnablement bons par rapport aux approches entraînées uniquement sur la tâche de segmentation. Pour affiner davantage ces performances, nous identifions deux désaccords principaux : i) le désaccord entre les tâches — la segmentation exige l'extraction de masques pour les objets en premier plan ainsi que pour les éléments de fond (stuff), tandis que la détection ne s'intéresse qu'aux objets en premier plan ; ii) le désaccord entre les données — les annotations sous forme de boîtes englobantes (bounding boxes) et celles sous forme de masques présentent des niveaux de granularité spatiale différents, et ne sont donc pas directement interchangeables. Pour résoudre ces problèmes, nous proposons une décodage découplé afin de réduire les interférences entre les objets en premier plan et le fond, ainsi qu’un décodage conditionnel de masques pour faciliter la génération de masques à partir de boîtes données. À cette fin, nous développons un modèle simple à architecture encodeur-décodeur intégrant ces trois techniques, entraîné conjointement sur COCO et Objects365. Après pré-entraînement, notre modèle montre une capacité de transfert zéro-shot compétitive, voire supérieure, pour les deux tâches. Plus précisément, OpenSeeD dépasse l’état de l’art pour la segmentation instance et panoptique à vocabulaire ouvert sur cinq jeux de données, et surpasse les méthodes antérieures pour la détection à vocabulaire ouvert sur LVIS et ODinW dans des conditions comparables. Lorsqu’il est transféré vers des tâches spécifiques, notre modèle établit de nouveaux records (SoTA) pour la segmentation panoptique sur COCO et ADE20K, ainsi que pour la segmentation instance sur ADE20K et Cityscapes. Enfin, nous soulignons qu’OpenSeeD est la première étude à explorer le potentiel de l’entraînement conjoint sur segmentation et détection, et espérons qu’il sera perçu comme une base solide pour le développement d’un modèle unique capable de traiter les deux tâches dans un contexte ouvert.

Un cadre simple pour la segmentation et la détection à vocabulaire ouvert | Articles de recherche récents | HyperAI