HyperAIHyperAI
il y a 2 mois

Convolutions indomptables : Segmentation de vocabulaire ouvert avec une unique convolution gelée de CLIP

Qihang Yu; Ju He; Xueqing Deng; Xiaohui Shen; Liang-Chieh Chen
Convolutions indomptables : Segmentation de vocabulaire ouvert avec une unique convolution gelée de CLIP
Résumé

La segmentation à vocabulaire ouvert est une tâche complexe qui nécessite de segmenter et reconnaître des objets provenant d'un ensemble de catégories ouvert. Une approche pour relever ce défi consiste à exploiter des modèles multi-modaux, tels que CLIP, afin de fournir des caractéristiques d'images et de texte dans un espace d'embedding partagé, ce qui comble l'écart entre la reconnaissance à vocabulaire fermé et celle à vocabulaire ouvert. Par conséquent, les méthodes existantes adoptent souvent un cadre en deux étapes pour aborder le problème : les entrées passent d'abord par un générateur de masques, puis par le modèle CLIP avec les masques prédits. Ce processus implique l'extraction de caractéristiques d'images plusieurs fois, ce qui peut être inefficace et peu performant. En revanche, nous proposons de construire tout cela dans un cadre mono-étape en utilisant une colonne vertébrale partagée CLIP convolutive figée (Frozen Convolutional CLIP), qui non seulement simplifie considérablement le pipeline actuel en deux étapes, mais offre également un meilleur compromis précision-coût. Le FC-CLIP proposé tire avantage des observations suivantes : la colonne vertébrale CLIP figée conserve la capacité de classification à vocabulaire ouvert et peut également servir de générateur de masques puissant ; et le CLIP convolutif généralise bien à une résolution d'entrée plus grande que celle utilisée lors du pré-entraînement contrastif image-texte. Lorsqu'il est entraîné uniquement sur les données panoptiques COCO et testé de manière zéro-shot, le FC-CLIP atteint 26,8 PQ (Panoptic Quality), 16,8 AP (Average Precision) et 34,1 mIoU (mean Intersection over Union) sur ADE20K, 18,2 PQ et 27,9 mIoU sur Mapillary Vistas, ainsi que 44,0 PQ, 26,8 AP et 56,2 mIoU sur Cityscapes, surpassant respectivement l'état de l'art précédent de +4,2 PQ, +2,4 AP et +4,2 mIoU sur ADE20K, +4,0 PQ sur Mapillary Vistas et +20,1 PQ sur Cityscapes. De plus, le temps d'entraînement et de test du FC-CLIP est significativement plus rapide que celui du même état de l'art précédent : respectivement 7,5 fois et 6,6 fois plus rapide tout en utilisant 5,9 fois moins de paramètres. Le FC-CLIP établit également une nouvelle performance record dans divers jeux de données de segmentation sémantique à vocabulaire ouvert.Code disponible à : https://github.com/bytedance/fc-clip

Convolutions indomptables : Segmentation de vocabulaire ouvert avec une unique convolution gelée de CLIP | Articles de recherche récents | HyperAI