HyperAIHyperAI
منذ 7 أيام

ماسك دينو: نحو إطار موحد قائم على المحولات للكشف عن الكائنات والتقسيم

Feng Li, Hao Zhang, Huaizhe xu, Shilong Liu, Lei Zhang, Lionel M. Ni, Heung-Yeung Shum
ماسك دينو: نحو إطار موحد قائم على المحولات للكشف عن الكائنات والتقسيم
الملخص

في هذه الورقة، نقدم إطار عمل Mask DINO، وهو إطار موحد للكشف عن الكائنات والتقسيم الصوري. يوسع Mask DINO (DINO مع صناديق مرجعية مُحسَّنة للإزالة من الضوضاء) إطار DINO بإضافة فرع للتنبؤ بالقناع (mask prediction)، الذي يدعم جميع مهام التقسيم الصوري (الكائنات الفردية، والتقسيم الشامل، والتقسيم الدلالي). يستخدم Mask DINO تضمينات الاستعلام (query embeddings) من DINO لإجراء ضربة داخلية (dot-product) مع خريطة تضمين للبكسل ذات دقة عالية، بهدف التنبؤ بمجموعة من القناعات الثنائية. تم توسيع بعض المكونات الأساسية في DINO لدعم التقسيم من خلال بنية مشتركة وعملية تدريب موحدة. يتميز Mask DINO بالبساطة والكفاءة والقابلية للتوسع، ويمكنه الاستفادة من مجموعات بيانات ضخمة موحدة للكشف عن الكائنات والتقسيم الصوري. تُظهر تجاربنا أن Mask DINO يتفوق بشكل كبير على جميع الطرق المتخصصة الحالية للتقسيم الصوري، سواء باستخدام هيكل أساسي من نوع ResNet-50 أو نموذج مُدرّب مسبقًا باستخدام هيكل SwinL. وبشكل ملحوظ، يُحقّق Mask DINO أفضل النتائج حتى تاريخه في التقسيم الكائني (54.5 AP على COCO)، والتقسيم الشامل (59.4 PQ على COCO)، والتقسيم الدلالي (60.8 mIoU على ADE20K) ضمن النماذج التي لا تتجاوز مليار معلمة. يمكن الوصول إلى الشفرة المصدرية من خلال الرابط: \url{https://github.com/IDEACVR/MaskDINO}.

ماسك دينو: نحو إطار موحد قائم على المحولات للكشف عن الكائنات والتقسيم | أحدث الأوراق البحثية | HyperAI