التدريب المسبق على نطاق واسع للهوية الشخصية مع تسميات ضوضائية

تهدف هذه الورقة إلى معالجة مشكلة التدريب المسبق (pre-training) في مهام التعرف على الأشخاص (Person Re-Identification، Re-ID) باستخدام تسميات مُشوشة (noisy labels). لبناء مهمة التدريب المسبق، نطبق نظامًا بسيطًا للتعقب المتعدد للأهداف في الوقت الفعلي (online multi-object tracking) على مقاطع الفيديو الخام لقاعدة بيانات Re-ID غير المُعلمة الموجودة مسبقًا، وهي "LUPerson"، ونُنشئ نسخة مُشوشة التسميات تُسمى "LUPerson-NL". نظرًا لأن هذه التسميات الخاصة بالأرقام (IDs) تُستخلص تلقائيًا من مسارات التتبع (tracklets) وتحتوي بالضرورة على ضوضاء، فقد طوّرنا إطارًا واسع النطاق للتدريب المسبق يعتمد على التسميات المشوهة (PNL)، والذي يتكون من ثلاث وحدات تعلم: التعلم المُراقب في Re-ID، والتعلم التبايني القائم على النماذج (prototype-based contrastive learning)، والتعلم التبايني المُوجه بالتسميات (label-guided contrastive learning). من حيث المبدأ، فإن التعلم المشترك لهذه الوحدات الثلاثة لا يُجمّع الأمثلة المشابهة في نموذج واحد فحسب، بل يُصحّح أيضًا التسميات المشوهة بناءً على تعيين النموذج. نُظهر أن التعلم مباشرة من مقاطع الفيديو الخام يُعد بديلاً واعدًا للتدريب المسبق، حيث يستفيد من الارتباطات المكانية والزمنية كمصدر للإشراف الضعيف (weak supervision). تُقدّم هذه المهمة البسيطة طريقة قابلة للتوسع للتعلم من الصفر لتمثيلات Re-ID من الدرجة الأولى (SOTA) على "LUPerson-NL" دون الحاجة إلى تعقيدات إضافية. على سبيل المثال، عند تطبيق نفس الطريقة المُراقبة في Re-ID (MGN)، يُحسّن النموذج المُدرّب مسبقًا أداء المقياس mAP مقارنة بالنموذج المُدرّب مسبقًا دون إشراف بنسبة 5.7% و2.2% و2.3% على قواعد بيانات CUHK03 وDukeMTMC وMSMT17 على التوالي. وفي البيئات ذات الحجم الصغير أو في سياقات التعلم القليل (few-shot)، تكون الفوائد أوضح، مما يشير إلى قدرة أفضل للتمثيل المُتعلم على التحويل (transferability). يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/DengpanFu/LUPerson-NL