النظر في الكائن: نمذجة الهيكل ذاتية الإشراف لتمييز الكائنات
معظم نهج التعرف على الأشياء تركز بشكل أساسي على تعلم الأنماط البصرية المميزة بينما تتجاهل بنية الشيء الكلية. رغم أهميتها، فإن نمذجة البنية غالبًا ما تتطلب توضيحات يدوية كبيرة وبالتالي تكون مكلفة من حيث العمل. في هذا البحث، نقترح "النظر داخل الشيء" (نمذجة بنية الشيء بشكل صريح ومعتبر داخليًا) من خلال دمج الإشراف الذاتي في الإطار التقليدي. نوضح أن يمكن تعزيز جوهر التعرف بشكل كبير للحصول على تعلم تمثيل أكثر ثباتًا، دون أي زيادة في تكلفة التوضيح أو سرعة الاستدلال. تحديدًا، نقترح أولاً وحدة تعلم نطاق الشيء لتحديد موقع الشيء وفقًا للأنماط البصرية المشتركة بين النماذج في نفس الفئة. ثم نصمم وحدة تعلم السياق المكاني لنمذجة الهياكل الداخلية للشيء، من خلال التنبؤ بمواقع النسب داخل النطاق. يمكن ربط هاتين الوحدتين بسهولة بأي شبكات أساسية أثناء التدريب وإزالتهما عند وقت الاستدلال. تظهر التجارب الواسعة أن نهجنا "النظر داخل الشيء" (LIO) يحقق مكاسب أداء كبيرة في عدد من المقاييس، بما في ذلك التعرف على الأشياء العامة (ImageNet) ومهمات التعرف على الأشياء الدقيقة (CUB, Cars, Aircraft). كما نوضح أن هذا النموذج التعليمي قابل للتعميم بشكل كبير إلى مهمات أخرى مثل الكشف عن الأشياء والتقسيم (MS COCO). صفحة المشروع: https://github.com/JDAI-CV/LIO.