الاستدلال العميق عن الاحتشاد للكشف عن أهداف متعددة باستخدام كاميرات متعددة

قد تحسنت تقنيات كشف الأشخاص في الصور ثنائية الأبعاد الفردية بشكل كبير في السنوات الأخيرة.ومع ذلك، فإن القليل نسبيًا من هذا التقدم قد انتقل إلى خوارزميات تتبع الأشخاص المتعددين باستخدام الكاميرات المتعددة، والتي لا تزال أداؤها يتأثر بشدة عندما تصبح المشاهد مزدحمة جدًا. في هذا البحث، نقدم هندسة معمارية جديدة تجمع بين شبكات العصب الاصطناعية المتشابكة (Convolutional Neural Nets) وحقول العشوائية الشرطية (Conditional Random Fields) لنمذجة تلك الغموض بوضوح. من أهم عناصر هذه الهندسة المعمارية هي المصطلحات عالية الرتبة لحقول العشوائية الشرطية التي تنمذج الإحتمالات المحتملة للإخفاء وتمنح منهجيتنا متانتها حتى عند وجود العديد من الأشخاص. نقوم بتدريب نموذجنا بطريقة شاملة من البداية إلى النهاية ونوضح أنه يتفوق على عدة خوارزميات رائدة في مجالها في مشاهد صعبة.