والت: مشاهدة وتعلم تمثيل ثنائي الأبعاد غير المرئي من صور ملتقطة على فترات زمنية

تواجه الطرق الحالية للكشف عن الكائنات، والتقسيم، والتتبع صعوبات كبيرة في البيئات الحضرية المزدحمة عند وجود احتباس شديد، حيث يُعدّ توفر بيانات حقيقية مُعلّمة تتعلق بالاحتباس نادرًا (حتى في المجموعات الكبيرة من البيانات)، كما أن البيانات الاصطناعية تترك فجوة مجالية، مما يجعل من الصعب نمذجة التعلم الصريح لحالات الاحتكاك. في هذه الدراسة، نقدم أفضل ما في العالمين الحقيقي والاصطناعي من خلال استخدام مصدر واسع متاح بالفعل للإشراف التلقائي على الاحتكاف: صور ملتقطة بمرور الزمن (time-lapse) من كاميرات ويب ثابتة تراقب تقاطعات الشوارع على مدى أسابيع أو أشهر وحتى سنوات. نُقدّم مجموعة بيانات جديدة تُسمى "وَاتش آند ليرن تايم-لايب" (WALT)، تتضمن 12 كاميرا (بجودة 4K و1080p) تُسجّل بيئات حضرية على مدى عام كامل. نستغل هذه البيانات الحقيقية بطريقة مبتكرة لاستخراج تلقائي لمجموعة كبيرة من الكائنات غير المحتبسة، ثم ندمجها في نفس المناظر لتكوين حالات احتباس اصطناعية. يُعدّ هذا الإشراف التلقائي الطويل الأمد قويًا بما يكفي لتمكين شبكة ذات تمثيل أمودي (amodal) من تعلّم تمثيلات الطبقات الخاصة بالكائن، والمتداخل، والمحجوب. نوضح كيفية تسريع عملية اكتشاف الكائنات غير المحتبسة، ونربط درجة الثقة في هذا الاكتشاف بمعدل ودقة تدريب الكائنات المحجوبة. وبعد مراقبة وتلقّي التعلم التلقائي لمدة عدة أيام، تُظهر هذه الطريقة تحسّنًا كبيرًا في أداء الكشف عن الأشخاص والمركبات المحجوبة، والتقسيم الدقيق لها، مقارنةً بالطرق البشرية المُشرفة التي تعتمد على التمثيل الأمودي.