الملخص

نقدم ODISE: التجزئة البانورامية القائمة على الانتشار المفتوح (Open-vocabulary DIffusion-based panoptic SEgmentation)، وهي توحيد بين نماذج الانتشار النص-صورة المدربة مسبقًا والنماذج التمييزية لتنفيذ التجزئة البانورامية ذات المفردات المفتوحة. تتمتع نماذج الانتشار النص-صورة بقدرة ملحوظة على إنشاء صور عالية الجودة مع وصفات لغوية متنوعة ومفردات مفتوحة. وهذا يدل على أن فضاء تمثيلها الداخلي مرتبطة بشكل كبير بالمفاهيم المفتوحة في العالم الحقيقي. من ناحية أخرى، فإن النماذج التمييزية للنص والصورة مثل CLIP جيدة في تصنيف الصور إلى علامات ذات مفردات مفتوحة. نستفيد من التمثيلات الداخلية الثابتة لكلتا هاتين النموذجين لأداء التجزئة البانورامية لأي فئة في الطبيعة. يتفوق نهجنا بشكل كبير على الحالة السابقة للتقنية في كل من مهمتي التجزئة البانورامية والمقطعية ذات المفردات المفتوحة. وبشكل خاص، باستخدام تدريب COCO فقط، حققت طريقتنا 23.4 PQ و30.0 mIoU على مجموعة بيانات ADE20K، مما يمثل تحسينًا مطلقًا بمقدار 8.3 PQ و7.9 mIoU عن الحالة السابقة للتقنية. قمنا بتوفير الكود والنماذج كمصدر مفتوح على https://github.com/NVlabs/ODISE .

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار