HyperAIHyperAI
منذ 17 أيام

الاستعلام النصي الموجه لـ Mask Transformer للتحليل التعميمي للنطاق

Byeonghyun Pak, Byeongju Woo, Sunghwan Kim, Dae-hwan Kim, Hoseong Kim
الاستعلام النصي الموجه لـ Mask Transformer للتحليل التعميمي للنطاق
الملخص

في هذه الورقة، نقدم طريقة لمعالجة التجزئة الدلالية العامة للنطاق (DGSS) من خلال استغلال المعرفة الدلالية المستقلة عن النطاق من تضمينات النصوص الناتجة عن نماذج الرؤية واللغة. نستخدم تضمينات النصوص كاستعلامات كائنات داخل إطار عمل للفصل يعتمد على المُحَوِّل (transformer) (استعلامات كائنات نصية). تُعتبر هذه الاستعلامات قاعدة مستقلة عن النطاق لتقسيم البكسلات في إطار DGSS. وللإفادة القصوى من قوة استعلامات الكائنات النصية، نقدّم إطارًا جديدًا يُسمى "محوّل قنوات التجزئة المُوجَّهة بالاستعلامات النصية" (tqdm). يهدف إطارنا tqdm إلى (1) إنشاء استعلامات كائنات نصية تُشْغِل إلى أقصى حدّ المفاهيم الدلالية المستقلة عن النطاق، و(2) تحسين وضوح الدلالة للميزات البصرية الكثيفة. علاوةً على ذلك، نقترح ثلاثة خسائر تنظيمية لتعزيز كفاءة إطار tqdm من خلال تحقيق التماثل بين الميزات البصرية والنصية. وباستخدام طريقة لدينا، يمكن للنموذج فهم المعلومات الدلالية الجوهرية للطبقات المطلوبة، مما يمكّنه من التعميم على النطاقات المتطرفة (مثل النمط الرسومي التخطيطي). حقق إطارنا tqdm تقييمًا قدره 68.9 mIoU على مهمة GTA5$\rightarrow$Cityscapes، متفوّقًا على أحدث الأدوات السابقة بفارق 2.5 mIoU. يمكن الاطلاع على صفحة المشروع عبر الرابط: https://byeonghyunpak.github.io/tqdm.

الاستعلام النصي الموجه لـ Mask Transformer للتحليل التعميمي للنطاق | أحدث الأوراق البحثية | HyperAI