ظهور الكائنية: التعلم من الفيديوهات للتمييز الصفي دون الرصد المسبق

يمكن للبشر تجزئة الأشياء المتحركة بسهولة دون معرفة ما هي. يحفز هذا القدرة على ظهور "الكائنية" (objectness) من الملاحظات البصرية المستمرة على نموذجنا لتجزئة المناطق والحركة بشكل متزامن من مقاطع الفيديو غير المصنفة. فرضيتنا هي أن الفيديو يحتوي على وجهات نظر مختلفة لنفس المشهد مرتبطة بالعناصر المتحركة، وأن التجزئة الصحيحة للمناطق وتدفق المنطقة سيسمحان بتركيب وجهات النظر المتبادلة التي يمكن التحقق منها من البيانات نفسها دون أي إشراف خارجي. يبدأ نموذجنا بمسارين منفصلين: مسار الشكل الذي ينتج تجزئة منطقة مستندة إلى الخصائص لمجرد صورة واحدة، ومسار الحركة الذي ينتج خصائص الحركة لمجموعة من صورتين. ثم يقوم بتجميعهما في تمثيل مشترك يُطلق عليه "تدفق التجزئة" (segment flow)، والذي يقوم بتجميع انحرافات التدفق عبر كل منطقة ويقدم وصفًا عامًا للمناطق المتحركة للمشهد بأكمله. عن طريق تدريب النموذج لتقليل أخطاء تركيب وجهات النظر بناءً على تدفق التجزئة، يتمكن مسارات الشكل والحركة لدينا من تعلم تجزئة المناطق وتقدير التدفق تلقائيًا دون بنائهما من الحواف المنخفضة المستوى أو تدفقات الضوء (optical flows) على التوالي. يظهر نموذجنا الظهور المفاجئ للكائنية في مسار الشكل، مما يتخطى الأعمال السابقة في تجزئة الكائنات بدون إشراف من صورة واحدة، وتجزئة الأشياء المتحركة بدون إشراف مع التكيف الزمني غير المشرف أثناء الاختبار، وتقطيع الصور الدلالي بواسطة التعديل الإشرافي الدقيق. يعتبر عملنا أول نموذج حقيقة لتجزئة الكائنات بدون إشراف بشكل كامل ومن طرف إلى طرف (end-to-end) من مقاطع الفيديو. فهو لا يطور فقط كيانية عامة للتجزئة والتتبع، بل أيضًا يتخطى الأساليب السائدة للتعلم التبايني القائم على الصور بدون هندسة زيادة البيانات (augmentation engineering).