HyperAIHyperAI
منذ 2 أشهر

التمييز البانورامي المفتوح للمفردات باستخدام نماذج التوسع من النص إلى الصورة

Jiarui Xu; Sifei Liu; Arash Vahdat; Wonmin Byeon; Xiaolong Wang; Shalini De Mello
التمييز البانورامي المفتوح للمفردات باستخدام نماذج التوسع من النص إلى الصورة
الملخص

نقدم ODISE: التجزئة البانورامية القائمة على الانتشار المفتوح (Open-vocabulary DIffusion-based panoptic SEgmentation)، وهي توحيد بين نماذج الانتشار النص-صورة المدربة مسبقًا والنماذج التمييزية لتنفيذ التجزئة البانورامية ذات المفردات المفتوحة. تتمتع نماذج الانتشار النص-صورة بقدرة ملحوظة على إنشاء صور عالية الجودة مع وصفات لغوية متنوعة ومفردات مفتوحة. وهذا يدل على أن فضاء تمثيلها الداخلي مرتبطة بشكل كبير بالمفاهيم المفتوحة في العالم الحقيقي. من ناحية أخرى، فإن النماذج التمييزية للنص والصورة مثل CLIP جيدة في تصنيف الصور إلى علامات ذات مفردات مفتوحة. نستفيد من التمثيلات الداخلية الثابتة لكلتا هاتين النموذجين لأداء التجزئة البانورامية لأي فئة في الطبيعة. يتفوق نهجنا بشكل كبير على الحالة السابقة للتقنية في كل من مهمتي التجزئة البانورامية والمقطعية ذات المفردات المفتوحة. وبشكل خاص، باستخدام تدريب COCO فقط، حققت طريقتنا 23.4 PQ و30.0 mIoU على مجموعة بيانات ADE20K، مما يمثل تحسينًا مطلقًا بمقدار 8.3 PQ و7.9 mIoU عن الحالة السابقة للتقنية. قمنا بتوفير الكود والنماذج كمصدر مفتوح على https://github.com/NVlabs/ODISE .

التمييز البانورامي المفتوح للمفردات باستخدام نماذج التوسع من النص إلى الصورة | أحدث الأوراق البحثية | HyperAI