تعلم اقتراحات الأشياء في العالم المفتوح دون تعلم التصنيف

باتت اقتراحات الأشياء جزءًا أساسيًا من خطوات المعالجة الأولية لعديد من أنابيب الرؤية، بما في ذلك الكشف عن الأشياء، والكشف المراقب بشكل ضعيف، واكتشاف الأشياء، والتتبع وغيرها. مقارنة بالطرق الخالية من التعلم، أصبحت الاقتراحات القائمة على التعلم شائعة مؤخرًا بفضل الاهتمام المتزايد بالكشف عن الأشياء. النموذج الشائع هو تعلم اقتراحات الأشياء من البيانات الموسومة بمجموعة من المناطق المرتبطة بالأجسام وأصنافها المقابلة. ومع ذلك، غالبًا ما يواجه هذا النهج صعوبات مع الأجسام الجديدة في العالم المفتوح التي تكون غائبة في مجموعة التدريب. في هذه الورقة البحثية، نحدد أن المشكلة تكمن في أن تصنيفات ثنائية الطيف في طرق الاقتراح الحالية تميل إلى الانطباق الزائد على أصناف التدريب. لذلك، نقترح شبكة تحديد موقع الأجسام خالية من التصنيف (OLN) التي تقدير "الأجسامة" لكل منطقة بناءً على مدى تداخل موقع وشكل المنطقة مع أي جسم حقيقي (مثل المركزية وIoU). هذه الاستراتيجية البسيطة تتعلم "الأجسامة" القابلة للتعميم وتتفوق على اقتراحات الأشياء الحالية في التعميم بين الأصناف المختلفة على COCO، وكذلك في تقييم بين المجموعات على RoboNet وObject365 وEpicKitchens. أخيرًا، نوضح فوائد OLN للكشف عن الأجسام ذات الذيل الطويل في مجموعات البيانات ذات المفردات الواسعة مثل LVIS، حيث نلاحظ تحسينًا واضحًا في الأصناف النادرة والشائعة.