HyperAIHyperAI
منذ 2 أشهر

FreeSeg: تقسيم الصور الموحد والشامل والمفتوح ال휘ocabularies

Jie Qin; Jie Wu; Pengxiang Yan; Ming Li; Ren Yuxi; Xuefeng Xiao; Yitong Wang; Rui Wang; Shilei Wen; Xin Pan; Xingang Wang
FreeSeg: تقسيم الصور الموحد والشامل والمفتوح ال휘ocabularies
الملخص

في الآونة الأخيرة، ظهر التعلم ذو المفردات المفتوحة لتحقيق تقسيم النصوص الوصفية لفئات عشوائية، مما أدى إلى تعميم نظام التقسيم في سيناريوهات تطبيقية أكثر شمولية. ومع ذلك، فإن الطرق الحالية تركز على تصميم هياكل أو معلمات متخصصة للمهام التقسيمية المحددة. هذه النماذج التصميمية المخصصة تؤدي إلى تجزئة بين مختلف المهام التقسيمية، مما يعيق وحدة نماذج التقسيم. لذلك، في هذا البحث، نقترح FreeSeg (فريسج)، وهو إطار عام لتحقيق تقسيم الصور الموحد والشامل والمفرداتي المفتوح. يقوم FreeSeg بتحسين شبكة شاملة عبر التدريب الفوري ويستخدم نفس الهيكل والمعلمات للتعامل مع مهام التقسيم المختلفة بطريقة سلسة أثناء الإجراء الاستدلالي. بالإضافة إلى ذلك، يساعد التعلم التلقائي للإرشادات (prompt learning) على تمكين النموذج الموحد من التقاط مفاهيم حساسة للفئات ومتعلقة بالمهام، مما يعزز صلابة النموذج في السيناريوهات المتعددة والمتنوعة. تظهر النتائج التجريبية الشاملة أن FreeSeg ينشئ نتائج جديدة رائدة في الأداء والتطبيقات العامة في ثلاث مهام تقسيمية، حيث يتفوق بشكل كبير على أفضل الهياكل المتخصصة في المهام: بنسبة 5.5% mIoU في تقسيم الدلالات (semantic segmentation)، و17.6% mAP في تقسيم الحالات (instance segmentation)، و20.1% PQ في تقسيم البانورامي (panoptic segmentation) للفئات غير المعروفة على مجموعة بيانات COCO.

FreeSeg: تقسيم الصور الموحد والشامل والمفتوح ال휘ocabularies | أحدث الأوراق البحثية | HyperAI