تكتسب عملية إعادة تحديد هوية المشاة المزيد والمزيد من الاهتمام. ما هي المواضيع الساخنة؟

تُستخدم تقنية إعادة تحديد هوية المشاة على نطاق واسع في سيناريوهات مثل المدن الذكية والقيادة الذاتية، وحققت تطوراً سريعاً في السنوات الأخيرة. ويرجع هذا أيضًا إلى توسع نطاق بيانات التدريب وتطور التعلم العميق.
في هذا الحشد الكبير، هل يمكنك العثور على الشخص الذي تبحث عنه في لمحة واحدة؟
اليوم، قد تكون هذه المهمة سهلة للغاية بالنسبة لأجهزة الكمبيوتر. ويرجع ذلك إلى التطور السريع لتكنولوجيا التعرف على هوية المشاة في السنوات الأخيرة.
إعادة التعرف على الأشخاص، والمعروفة أيضًا بإعادة التعرف على المشاة، أو ReID باختصار، هي تقنية تستخدم تقنية الرؤية الحاسوبية لتحديد ما إذا كان هناك مشاة محدد في صورة أو تسلسل فيديو. ولكي نضع الأمر بشكل حدسي،إنها قادرة على تحديد نفس الشخص المستهدف في مشاهد مختلفة من خلال ميزات مثل الملابس وشكل الجسم وتسريحة الشعر وما إلى ذلك، لذلك يطلق عليها أيضًا تقنية التتبع عبر الحدود.

أصبحت عملية إعادة التعرف على الأشخاص اتجاهًا بحثيًا رئيسيًا في مجال الرؤية الحاسوبية بعد التعرف على الوجه.
على الرغم من أن تقنية التعرف على الوجه ناضجة للغاية، إلا أنه في كثير من الحالات، مثل الحشود الكثيفة، أو الدقة المنخفضة لكاميرات المراقبة، أو زوايا التصوير المتحيزة، لا يمكن التعرف على الوجوه بشكل فعال.لقد أصبح إعادة تحديد هوية المشاة مكملاً مهماً.
ولذلك، حظيت تقنية التعرف على الوجوه باهتمام متزايد في السنوات الأخيرة، وأصبحت التطبيقات المرتبطة بها واسعة النطاق بشكل متزايد.
لفهم التكنولوجيا، يجب علينا أولاً أن نفهم ما هي المشكلة التي تحلها، وكيف تحقق الاختراقات، وما هي المرحلة التي وصلت إليها، وما هي التحديات التي تواجهها. وبعد ذلك، سنقوم بإجراء تحليل شامل.
أين يتم استخدام إعادة تحديد هوية المشاة؟
أولاً وقبل كل شيء، وكما ذكرنا أعلاه، فإن إعادة التعرف على هوية المشاة يعد مكملاً مهماً لتقنية التعرف على الوجوه.
الشرط الأساسي للتعرف على الوجه هو: صورة أمامية واضحة للوجه. ومع ذلك، عندما تعرض الصورة فقط الجزء الخلفي أو الزوايا الأخرى التي لا يمكن رؤية الوجه فيها، فإن التعرف على الوجه سوف يفشل. في هذا الوقت، يمكن لعملية إعادة تحديد هوية المشاة أن تستمر في تعقب الشخص المستهدف من خلال ميزات مثل الوضعية والملابس.
في الوقت الحاضر، يتم استخدام تقنية إعادة تحديد هوية المشاة على نطاق واسع في مجالات الأمن والقيادة الذاتية وغيرها من المجالات. على سبيل المثال:
الأمان الذكي:يمكن لمحققي الشرطة استخدام ReID للمساعدة في فحص الأشخاص المشتبه بهم بسرعة؛
نظام البحث الذكي:في الأماكن ذات حجم حركة المرور الكبيرة، مثل المطارات ومحطات القطارات، يمكن استخدام ReID للعثور على الأطفال المفقودين وكبار السن؛
الأعمال الذكية:يمكن لـ ReID تتبع مسارات المستخدم بشكل ديناميكي في الوقت الفعلي استنادًا إلى صور مظهر المشاة، وذلك لفهم اهتمامات المستخدم في المركز التجاري وتحسين تجربة المستخدم؛
نظام القيادة الذاتية:يمكن لـReID التعرف على المشاة بشكل أفضل وتحسين سلامة القيادة الذاتية.

مفتاح الاختراقات التكنولوجية: مجموعات البيانات واسعة النطاق
وفقًا للباحثين المعنيين، فإن تحقيق تقنية إعادة تحديد هوية المشاة يتطلب عمومًا الخطوات الخمس التالية:
- جمع البيانات؛
- إنشاء مربع الحدود؛
- شرح بيانات التدريب؛
- التدريب النموذجي؛
- استرجاع المشاة
ومن بينها، يشكل جمع البيانات كخطوة أولى الأساس لبحث إعادة تحديد هوية المشاة بأكمله.وفي السنوات الأخيرة، تم تحقيق تقدم كبير في مجال إعادة تحديد هوية الشخص بفضل الترويج لمجموعات البيانات واسعة النطاق ودعمها.
ستقدم هذه المقالة العديد من مجموعات البيانات الشائعة الاستخدام لاكتشاف المشاة لأبحاثك وتدريب النماذج.
مجموعة بيانات الأشخاص INRIA مجموعة بيانات اكتشاف المشاة
تُعد مجموعة بيانات INRIA Person حاليًا واحدة من أكثر مجموعات بيانات الكشف عن المشاة الثابتة شيوعًا واستخدامًا.نُشرت في عام 2005 بواسطة INRIA (المعهد الوطني الفرنسي للمعلومات والأتمتة). يتم استخدام مجموعة البيانات هذه للكشف عن المشاة المستقيمين في الصور ومقاطع الفيديو.
تحتوي مجموعة البيانات هذه على بيانات بتنسيقين.
الفئة 1: الصور الأصلية وتعليقات المشاة المستقيمة المقابلة؛
الفئة 2: صور إيجابية للمشاة الواقفين وصورهم السلبية المقابلة لها والتي تم تطبيعها إلى 64×128 بكسل.

المعلومات الأساسية لمجموعة البيانات هي كما يلي:
مجموعة بيانات الأشخاص INRIA
وكالة النشر: إنريا
الكمية المتضمنة:تحتوي مجموعة التدريب ومجموعة الاختبار على إجمالي 2573 صورة
تنسيق البيانات:العينات الإيجابية بصيغة .png، والعينات السلبية بصيغة .jpg
حجم البيانات:969 ميجابايت
وقت التحديث:2005
عنوان التنزيل:https://orion.hyper.ai/datasets/5331
أوراق ذات صلة:
مجموعة بيانات فيديو المشاة بجامعة كاليفورنيا في سان دييغو
تم جمع بيانات مقاطع الفيديو للمشاة وتنظيمها من قبل جامعة كاليفورنيا وجامعة مدينة هونج كونج وتم إصدارها في فبراير 2013.
يتم استخدام مجموعة البيانات هذه لتجزئة الحركة وإحصاء الحشود.تحتوي مجموعة البيانات على مقاطع فيديو للمشاة على الرصيف في جامعة كاليفورنيا، سان دييغو، وكلها من كاميرا ثابتة.
ومن بينها، جميع مقاطع الفيديو هي بصيغة 8 بتات رمادية، وحجم 238×158، و10 إطارات/ثانية. الفيديو الأصلي هو 740×480، 30 إطارًا/ثانية، ويمكن تقديمه عند الطلب.
يحتوي دليل الفيديو على مقاطع فيديو لمشهدين (مقسمين إلى دليلين، vidf و vidd). يوجد كل مشهد في دليل vidX الخاص به ويتم تقسيمه إلى مجموعة من أجزاء .png.

المعلومات الأساسية لمجموعة البيانات هي كما يلي:
مجموعة بيانات المشاة بجامعة كاليفورنيا في سان دييغو
وكالة النشر: جامعة مدينة هونغ كونغ، جامعة كاليفورنيا في سان دييغو
الكمية المتضمنة:حوالي 10 ساعات من الفيديو
تنسيق البيانات:.png
حجم البيانات:vidf: 787 ميجابايت؛ حجم الفيديو: 672 ميجابايت
وقت التحديث:فبراير 2013
عنوان التنزيل:https://orion.hyper.ai/datasets/9370
أوراق ذات صلة:
معيار اكتشاف المشاة في معهد كاليفورنيا للتكنولوجيا
تم إصدار قاعدة بيانات Caltech Pedestrian Detection Benchmark من قبل معهد كاليفورنيا للتكنولوجيا في عام 2009 ويتم تحديثها باستمرار كل عام.
تعد هذه القاعدة البيانات أكبر قاعدة بيانات للمشاة حاليًا، حيث تحتوي على حوالي 10 ساعات من الفيديو.يتم تصويره بشكل أساسي بواسطة كاميرات مثبتة على المركبات التي تسير في بيئات مرورية عادية في المدينة، بدقة فيديو 640×480 و30 إطارًا في الثانية.
يتضمن الفيديو حوالي 250 ألف إطار (حوالي 137 دقيقة)، و350 ألف صندوق مستطيل، و2300 مشاة. بالإضافة إلى ذلك، تم توضيح المراسلات الزمنية بين الصناديق المستطيلة وظروف انسدادها أيضًا.

المعلومات الأساسية لمجموعة البيانات هي كما يلي:
مجموعة بيانات المشاة في معهد كاليفورنيا للتكنولوجيا
وكالة النشر: معهد كاليفورنيا للتكنولوجيا
الكمية المتضمنة:تحتوي مجموعة التدريب ومجموعة الاختبار على إجمالي 2573 صورة
تنسيق البيانات:.jpg
حجم البيانات:11.12 جيجابايت
وقت التحديث:يوليو 2019
عنوان التنزيل:https://orion.hyper.ai/datasets/5334
أوراق ذات صلة:
ما هي الطرق المتقدمة؟
إن الأبحاث في مجال إعادة تحديد هوية الشخص مستمرة منذ ما يقرب من ثلاثة عقود. وفي السنوات الأخيرة، حققت هذه التكنولوجيا تقدمًا كبيرًا بفضل مجموعات البيانات واسعة النطاق وتطور التعلم العميق.
نذكر هنا طريقتين من أحدث الطرق للدراسة والرجوع إليها.
إزالة الاختلافات في الأسلوب بين الكاميرات المختلفة
في المؤتمر الدولي الرائد حول رؤية الكمبيوتر CVPR 2020، نشرت الأكاديمية الصينية للعلوم ورقة بحثية نقل أسلوب الوحدة لإعادة تحديد هوية الشخصوسط،تم اقتراح طريقة التكيف UnityStyle، والتي يمكنها توحيد الاختلافات في الأسلوب بين الكاميرات المختلفة.

سواء كانت نفس الكاميرا أو كاميرات مختلفة، عند التقاط الصور، ستكون هناك اختلافات كبيرة بسبب تأثير الوقت والإضاءة والطقس وما إلى ذلك، مما سيجلب صعوبات في الاستعلام المستهدف.
لحل هذه المشكلة، قام فريق البحث أولاً بإنشاء UnityGAN لتعلم تغييرات الأسلوب بين الكاميرات وإنشاء صور أسلوب ثابتة الشكل لكل كاميرا، والتي يطلقون عليها صور UnityStyle.
في نفس الوقت،يستخدمون صور UnityStyle لتخفيف اختلافات الأسلوب بين الصور المختلفة، بحيث يتم تطابق الاستعلام (هدف الاستعلام) والمعرض (مكتبة الصور) بشكل أفضل.
ثم قاموا بتطبيق الطريقة المقترحة على نموذج إعادة التعريف، على أمل الحصول على ميزات عميقة أكثر قوة في الأسلوب للاستعلام.

أجرى الفريق تجارب مكثفة على مجموعات بيانات معيارية مستخدمة على نطاق واسع لتقييم أداء الإطار المقترح، وأكدت النتائج التجريبية تفوق النموذج المقترح.
حل مشكلة انسداد المشاة
ورقة بحثية منشورة من قبل معهد ميغفي للأبحاث في مؤتمر CVPR 2020 أهمية المعلومات عالية المستوى: علاقة التعلم والطوبولوجيا لإعادة تحديد هوية الشخص المحجوبوسط،إنه يحل المشكلة الأكثر شيوعًا وتحديًا في هذا المجال - انسداد المشاة.

في هذه الورقة، يتضمن الإطار الذي اقترحه معهد ميجفي للأبحاث ما يلي:
- وحدة دلالية من الدرجة الأولى (S)، يمكنها استخراج السمات الدلالية لمناطق النقاط الرئيسية في جسم الإنسان؛
- وحدة علاقات عالية الترتيب (R)، والتي يمكنها نمذجة معلومات العلاقة بين الميزات المحلية الدلالية المختلفة؛
- وحدة طوبولوجيا بشرية عالية المستوى (T) تتعلم المحاذاة القوية وتتنبأ بالتشابه بين صورتين.
يتم تدريب هذه الوحدات الثلاث بشكل مشترك بطريقة متكاملة.

في السابق، كان لديناتم افتتاح أحدث مؤتمر ECCV في التاريخ، وهذه الأوراق مثيرة للاهتمام للغاية.تم تقديم ورقة بحثية بعنوان "من فضلك لا تزعجني: إعادة تحديد هوية المشاة تحت تدخل المشاة الآخرين" نشرتها جامعة هواتشونغ للعلوم والتكنولوجيا، وجامعة صن يات صن، ومختبر تينسنت يوتيوب. الطريقة المقترحة في هذه الورقة تحل مشكلة نتائج الاسترجاع الخاطئة الناجمة عن تدخل المشاة في الخلفية أو انسداد جسم الإنسان في المشاهد المزدحمة. ويمكن للطلبة المهتمين مراجعته مرة أخرى.
التقنيات الحديثة، ولكن لا تزال تواجه صعوبات
في الوقت الحاضر، لا تزال عملية إعادة تحديد هوية المشاة تواجه تحديات كبيرة، بما في ذلك البيانات والكفاءة والأداء وغيرها من الجوانب.
من حيث البيانات، ستكون بيانات الفيديو التي تم الحصول عليها مختلفة جدًا بسبب المشاهد المختلفة (مثل الأماكن المغلقة والمفتوحة)، والتغييرات في الأسلوب في المواسم المختلفة، والاختلافات في الضوء في أوقات مختلفة (مثل الليل والنهار)، وما إلى ذلك. هذه كلها عوامل تداخل لإعادة التعرف على المشاة.لا تؤثر عوامل التداخل هذه على دقة التعرف على النموذج فحسب، بل تؤثر أيضًا على كفاءة التعرف.

ولذلك، ورغم أننا رأينا أن إعادة التعرف على هوية المشاة قد تجاوزت قدرات الحل البشرية في الحالات القائمة، إلا أن هناك العديد من المشاكل التي تحتاج إلى حل.
انتقل إلى الرابط التالي:https://orion.hyper.ai/datasets،ابحث عن "المشاة" أو انقر فوقاقرأ المقال الأصلي،تتوفر المزيد من مجموعات البيانات الخاصة باكتشاف المشاة.
-- زيادة--