HyperAIHyperAI
منذ 15 أيام

LaMI-DETR: الكشف متعدد الفئات المفتوحة باستخدام تعليمات النموذج اللغوي

Penghui Du, Yu Wang, Yifan Sun, Luting Wang, Yue Liao, Gang Zhang, Errui Ding, Yan Wang, Jingdong Wang, Si Liu
LaMI-DETR: الكشف متعدد الفئات المفتوحة باستخدام تعليمات النموذج اللغوي
الملخص

تعزز الطرق الحالية الكشف عن الكائنات في بيئة مفتوحة من خلال الاستفادة من القدرات القوية في التعرف على البيئة المفتوحة التي تمتلكها نماذج الرؤية واللغة (VLMs)، مثل CLIP. ومع ذلك، تظهر تحديان رئيسيان: (1) نقص في تمثيل المفاهيم، حيث تفتقر أسماء الفئات في الفضاء النصي لـ CLIP إلى المعرفة النصية والبصرية. (2) ميل إلى التوافق الزائد مع الفئات الأساسية، حيث يكون المعرفة المفتوحة في البيئة متحيّزاً نحو الفئات الأساسية أثناء نقلها من نماذج VLM إلى الكاشفات. لمعالجة هذه التحديات، نقترح استراتيجية تسمى "تعليم النموذج اللغوي" (LaMI)، والتي تستفيد من العلاقات بين المفاهيم البصرية وتطبقها داخل كاشف بسيط ولكن فعّال يشبه نموذج DETR، ويُسمّى LaMI-DETR. تستخدم LaMI نموذج GPT لبناء المفاهيم البصرية، وتستعين بنموذج T5 لاستكشاف التشابه البصري بين الفئات. تُحسّن هذه العلاقات بين الفئات تمثيل المفاهيم وتحمي من التوافق الزائد مع الفئات الأساسية. وتوصّل التجارب الشاملة إلى تفوق أداء منهجنا مقارنة بالطرق الحالية في نفس الإطار الصارم، دون الاعتماد على موارد تدريب خارجية. ويحقق LaMI-DETR نسبة AP لصناديق نادرة تبلغ 43.4 على مجموعة بيانات OV-LVIS، متفوّقاً على أفضل نتيجة سابقة بفارق 7.8 نقطة في نسبة AP للصناديق النادرة.

LaMI-DETR: الكشف متعدد الفئات المفتوحة باستخدام تعليمات النموذج اللغوي | أحدث الأوراق البحثية | HyperAI