HyperAIHyperAI

Command Palette

Search for a command to run...

الاستعلام النصي الموجه لـ Mask Transformer للتحليل التعميمي للنطاق

Byeonghyun Pak Byeongju Woo Sunghwan Kim Dae-hwan Kim Hoseong Kim

الملخص

في هذه الورقة، نقدم طريقة لمعالجة التجزئة الدلالية العامة للنطاق (DGSS) من خلال استغلال المعرفة الدلالية المستقلة عن النطاق من تضمينات النصوص الناتجة عن نماذج الرؤية واللغة. نستخدم تضمينات النصوص كاستعلامات كائنات داخل إطار عمل للفصل يعتمد على المُحَوِّل (transformer) (استعلامات كائنات نصية). تُعتبر هذه الاستعلامات قاعدة مستقلة عن النطاق لتقسيم البكسلات في إطار DGSS. وللإفادة القصوى من قوة استعلامات الكائنات النصية، نقدّم إطارًا جديدًا يُسمى "محوّل قنوات التجزئة المُوجَّهة بالاستعلامات النصية" (tqdm). يهدف إطارنا tqdm إلى (1) إنشاء استعلامات كائنات نصية تُشْغِل إلى أقصى حدّ المفاهيم الدلالية المستقلة عن النطاق، و(2) تحسين وضوح الدلالة للميزات البصرية الكثيفة. علاوةً على ذلك، نقترح ثلاثة خسائر تنظيمية لتعزيز كفاءة إطار tqdm من خلال تحقيق التماثل بين الميزات البصرية والنصية. وباستخدام طريقة لدينا، يمكن للنموذج فهم المعلومات الدلالية الجوهرية للطبقات المطلوبة، مما يمكّنه من التعميم على النطاقات المتطرفة (مثل النمط الرسومي التخطيطي). حقق إطارنا tqdm تقييمًا قدره 68.9 mIoU على مهمة GTA5\rightarrowCityscapes، متفوّقًا على أحدث الأدوات السابقة بفارق 2.5 mIoU. يمكن الاطلاع على صفحة المشروع عبر الرابط: https://byeonghyunpak.github.io/tqdm.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp