LaMI-DETR: الكشف متعدد الفئات المفتوحة باستخدام تعليمات النموذج اللغوي

تعزز الطرق الحالية الكشف عن الكائنات في بيئة مفتوحة من خلال الاستفادة من القدرات القوية في التعرف على البيئة المفتوحة التي تمتلكها نماذج الرؤية واللغة (VLMs)، مثل CLIP. ومع ذلك، تظهر تحديان رئيسيان: (1) نقص في تمثيل المفاهيم، حيث تفتقر أسماء الفئات في الفضاء النصي لـ CLIP إلى المعرفة النصية والبصرية. (2) ميل إلى التوافق الزائد مع الفئات الأساسية، حيث يكون المعرفة المفتوحة في البيئة متحيّزاً نحو الفئات الأساسية أثناء نقلها من نماذج VLM إلى الكاشفات. لمعالجة هذه التحديات، نقترح استراتيجية تسمى "تعليم النموذج اللغوي" (LaMI)، والتي تستفيد من العلاقات بين المفاهيم البصرية وتطبقها داخل كاشف بسيط ولكن فعّال يشبه نموذج DETR، ويُسمّى LaMI-DETR. تستخدم LaMI نموذج GPT لبناء المفاهيم البصرية، وتستعين بنموذج T5 لاستكشاف التشابه البصري بين الفئات. تُحسّن هذه العلاقات بين الفئات تمثيل المفاهيم وتحمي من التوافق الزائد مع الفئات الأساسية. وتوصّل التجارب الشاملة إلى تفوق أداء منهجنا مقارنة بالطرق الحالية في نفس الإطار الصارم، دون الاعتماد على موارد تدريب خارجية. ويحقق LaMI-DETR نسبة AP لصناديق نادرة تبلغ 43.4 على مجموعة بيانات OV-LVIS، متفوّقاً على أفضل نتيجة سابقة بفارق 7.8 نقطة في نسبة AP للصناديق النادرة.