نحو اكتشاف غير مشرف لأكثر من كائن في مجموعات صور كبيرة الحجم

يتناول هذا البحث مشكلة اكتشاف الأشياء الموجودة في مجموعة من الصور دون أي إشراف. نعتمد على نهج التحسين الذي طرحه فو وآخرون (CVPR'19) مع عدة تحسينات رئيسية: (1) نقترح خوارزمية جديدة لاقتراح المناطق تستند إلى البارزة البصرية، والتي تحقق تداخلًا أعلى بكثير مع الأشياء الحقيقية مقارنة بالطرق التنافسية الأخرى. تعتمد هذه العملية على استخدام ميزات CNN جاهزة تم تدريبها على مهام التصنيف دون أي معلومات عن صناديق الحدود، ولكنها غير مشرف عليها بشكل آخر. (2) نستغل البنية الهرمية الطبيعية للاقتراحات كمنظم فعال لنظريات اكتشاف الأشياء التي طرحها فو وآخرون، مما يعزز أدائها ويحسن بشكل كبير على أحدث التقنيات في عدة مقاييس قياسية. (3) نتبع استراتيجية ذات مرحلتين لاختيار الاقتراحات الواعدة باستخدام مجموعات صغيرة عشوائية من الصور قبل استخدام المجموعة الكاملة من الصور لاكتشاف الأشياء التي تحتوي عليها، مما يتيح لنا التعامل لأول مرة (حسب علمنا)، مع اكتشاف العديد من الأشياء في كل صورة ضمن مجموعات بيانات تتكون من ما يصل إلى 20,000 صورة، بزيادة تزيد عن خمسة أضعاف مقارنة بالطرق الحالية، وهي خطوة أولى نحو تفسير الصور بدون إشراف على نطاق واسع حقًا.