HyperAIHyperAI
منذ 15 أيام

DETR ذا تعبير مفتوح مع تطابق مشروط

Yuhang Zang, Wei Li, Kaiyang Zhou, Chen Huang, Chen Change Loy
DETR ذا تعبير مفتوح مع تطابق مشروط
الملخص

الكشف عن الكائنات ذات النطاق المفتوح، والذي يتناول مشكلة اكتشاف الكائنات الجديدة التي تُرشد بواسطة لغة طبيعية، قد اكتسب اهتمامًا متزايدًا من المجتمع العلمي. في المثالية، نود توسيع كاشف النطاق المفتوح بحيث يمكنه إنتاج تنبؤات بالحدود المحيطة (bounding boxes) بناءً على مدخلات المستخدم على شكل لغة طبيعية أو صورة مثالية. وهذا يوفر مرونة كبيرة وتجربة مستخدم ممتازة في التفاعل بين الإنسان والآلة. لتحقيق هذا الهدف، نقترح كاشفًا جديدًا للنطاق المفتوح مبنيًا على نموذج DETR – ولهذا السبب نسميه OV-DETR – والذي، بعد التدريب، يمكنه اكتشاف أي كائن بمجرد إدخال اسم فئته أو صورة مثالية له. أبرز التحديات التي تواجه تحويل DETR إلى كاشف نطاق مفتوح هي أن من المستحيل حساب مصفوفة تكلفة التصنيف للفئات الجديدة دون الوصول إلى صور مُعلَّمة لها. لتجاوز هذا التحدي، نصيغ هدف التعلّم كمطابقة ثنائية بين الاستفسارات المدخلة (اسم الفئة أو صورة مثالية) والكائنات المقابلة لها، مما يُعلّم تطابقًا مفيدًا يمكنه التعميم على الاستفسارات غير المرئية أثناء الاختبار. أما في مرحلة التدريب، فنختار أن نُقيّد مُفكّك Transformer بالتمثيلات المدخلة الناتجة عن نموذج ما قبل التدريب متعدد الوسائط (vision-language) مثل CLIP، بهدف تمكين المطابقة لكل من الاستفسارات النصية والصورية. من خلال تجارب واسعة على مجموعتي بيانات LVIS وCOCO، نُظهر أن OV-DETR – أول كاشف نطاق مفتوح مبني على نموذج Transformer ومتعدد المراحل (end-to-end) – يحقق تحسينات ملحوظة مقارنة بأفضل النماذج الحالية.

DETR ذا تعبير مفتوح مع تطابق مشروط | أحدث الأوراق البحثية | HyperAI