HyperAIHyperAI

Command Palette

Search for a command to run...

التمييز البانورامي المفتوح للمفردات باستخدام نماذج التوسع من النص إلى الصورة

Jiarui Xu extsuperscript1 hanksJiarui Xu was an intern at NVIDIA during the project. Sifei Liu extsuperscript2 hanksequal contribution. Arash Vahdat extsuperscript2 Wonmin Byeon extsuperscript2 Xiaolong Wang extsuperscript1 Shalini De Mello extsuperscript2

الملخص

نقدم ODISE: التجزئة البانورامية القائمة على الانتشار المفتوح (Open-vocabulary DIffusion-based panoptic SEgmentation)، وهي توحيد بين نماذج الانتشار النص-صورة المدربة مسبقًا والنماذج التمييزية لتنفيذ التجزئة البانورامية ذات المفردات المفتوحة. تتمتع نماذج الانتشار النص-صورة بقدرة ملحوظة على إنشاء صور عالية الجودة مع وصفات لغوية متنوعة ومفردات مفتوحة. وهذا يدل على أن فضاء تمثيلها الداخلي مرتبطة بشكل كبير بالمفاهيم المفتوحة في العالم الحقيقي. من ناحية أخرى، فإن النماذج التمييزية للنص والصورة مثل CLIP جيدة في تصنيف الصور إلى علامات ذات مفردات مفتوحة. نستفيد من التمثيلات الداخلية الثابتة لكلتا هاتين النموذجين لأداء التجزئة البانورامية لأي فئة في الطبيعة. يتفوق نهجنا بشكل كبير على الحالة السابقة للتقنية في كل من مهمتي التجزئة البانورامية والمقطعية ذات المفردات المفتوحة. وبشكل خاص، باستخدام تدريب COCO فقط، حققت طريقتنا 23.4 PQ و30.0 mIoU على مجموعة بيانات ADE20K، مما يمثل تحسينًا مطلقًا بمقدار 8.3 PQ و7.9 mIoU عن الحالة السابقة للتقنية. قمنا بتوفير الكود والنماذج كمصدر مفتوح على https://github.com/NVlabs/ODISE .


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التمييز البانورامي المفتوح للمفردات باستخدام نماذج التوسع من النص إلى الصورة | مستندات | HyperAI