Command Palette
Search for a command to run...
التمييز البانورامي المفتوح للمفردات باستخدام نماذج التوسع من النص إلى الصورة
التمييز البانورامي المفتوح للمفردات باستخدام نماذج التوسع من النص إلى الصورة
Jiarui Xu extsuperscript1 hanksJiarui Xu was an intern at NVIDIA during the project. Sifei Liu extsuperscript2 hanksequal contribution. Arash Vahdat extsuperscript2 Wonmin Byeon extsuperscript2 Xiaolong Wang extsuperscript1 Shalini De Mello extsuperscript2
الملخص
نقدم ODISE: التجزئة البانورامية القائمة على الانتشار المفتوح (Open-vocabulary DIffusion-based panoptic SEgmentation)، وهي توحيد بين نماذج الانتشار النص-صورة المدربة مسبقًا والنماذج التمييزية لتنفيذ التجزئة البانورامية ذات المفردات المفتوحة. تتمتع نماذج الانتشار النص-صورة بقدرة ملحوظة على إنشاء صور عالية الجودة مع وصفات لغوية متنوعة ومفردات مفتوحة. وهذا يدل على أن فضاء تمثيلها الداخلي مرتبطة بشكل كبير بالمفاهيم المفتوحة في العالم الحقيقي. من ناحية أخرى، فإن النماذج التمييزية للنص والصورة مثل CLIP جيدة في تصنيف الصور إلى علامات ذات مفردات مفتوحة. نستفيد من التمثيلات الداخلية الثابتة لكلتا هاتين النموذجين لأداء التجزئة البانورامية لأي فئة في الطبيعة. يتفوق نهجنا بشكل كبير على الحالة السابقة للتقنية في كل من مهمتي التجزئة البانورامية والمقطعية ذات المفردات المفتوحة. وبشكل خاص، باستخدام تدريب COCO فقط، حققت طريقتنا 23.4 PQ و30.0 mIoU على مجموعة بيانات ADE20K، مما يمثل تحسينًا مطلقًا بمقدار 8.3 PQ و7.9 mIoU عن الحالة السابقة للتقنية. قمنا بتوفير الكود والنماذج كمصدر مفتوح على https://github.com/NVlabs/ODISE .