اكتشف كل شيء ببضع قليل من الأمثلة

الكشف عن الأشياء بقليل من الأمثلة يهدف إلى اكتشاف فئات جديدة بناءً على صور مثال قليلة فقط. يعتبر هذا مهارة أساسية للروبوتات لأداء المهام في بيئات مفتوحة. تركز الطرق الحديثة على استراتيجيات التحسين الدقيق (finetuning)، مع إجراءات معقدة تحول دون تطبيق أوسع. في هذه الورقة، نقدم DE-ViT، وهو كاشف أشياء بقليل من الأمثلة لا يحتاج إلى التحسين الدقيق. تعتمد الهندسة المعمارية الجديدة لـ DE-ViT على آلية جديدة لنشر المناطق للتخصيص. يتم تحويل الأقنعة المنشرة للمناطق إلى صناديق حددت من خلال طبقة تكامل فضائي قابلة للتعلم. بدلاً من تدريب تصنيفات النماذج الأولية (prototype classifiers)، نقترح استخدام النماذج الأولية لتحويل خصائص ViT إلى فضاء جزئي مقاوم للانحراف الزائد (overfitting) على الفئات الأساسية. نقيم DE-ViT على مقاييس الكشف عن الأشياء بقليل من الأمثلة ومرة واحدة باستخدام معايير Pascal VOC وCOCO وLVIS. يحدد DE-ViT نتائج جديدة رائدة في جميع المقاييس. بشكل لافت للنظر، بالنسبة لـ COCO، يتفوق DE-ViT على أفضل التقنيات الحالية (SoTA) بـ 15 نقطة متوسطة الدقة (mAP) في حالة 10 أمثلة وبـ 7.2 نقطة متوسطة الدقة في حالة 30 مثالًا، وعلى أفضل التقنيات الحالية في حالة مرة واحدة بمقدار 2.8 نقطة دقة AP50. بالنسبة لـ LVIS، يتفوق DE-ViT على أفضل التقنيات الحالية بـ 17 نقطة دقة APr للصناديق. بالإضافة إلى ذلك، نقيم DE-ViT باستخدام روبوت حقيقي من خلال بناء نظام اختيار وضع لفرز الأشياء الجديدة بناءً على صور المثال. يمكن العثور على مقاطع الفيديو التي تعرض تجارب الروبوت والكود المصدر والنموذج الخاص بـ DE-ViT على الرابط https://mlzxy.github.io/devit.