FlipReID: تضييق الفجوة بين التدريب والاستدلال في إعادة تحديد الأشخاص

بما أن الشبكات العصبية تتطلب كميات كبيرة من البيانات، فإن دمج تقنية تكبير البيانات (data augmentation) أثناء التدريب يُعد تقنية شائعة الانتشار تهدف إلى توسيع المجموعات البيانات وتحسين القدرة على التعميم. من ناحية أخرى، يمكن لدمج تنبؤات عينات متعددة تم تكبيرها (أي التكبير أثناء الاختبار، test-time augmentation) أن يعزز الأداء بشكل أكبر. في سياق نماذج إعادة التعرف على الأشخاص (person re-identification)، من الشائع استخراج المُدمجات (embeddings) لكل من الصور الأصلية ونسخها المقلوبة أفقيًا. ويُحسب التمثيل النهائي كمتوسط المتجهات المميزة المذكورة أعلاه. ومع ذلك، فإن هذا النهج يُحدث فجوة بين مرحلتي التدريب والاستنتاج، أي أن متجهات المُدمج المتوسطة المحسوبة أثناء الاستنتاج لا تُدخل ضمن سلسلة التدريب. في هذه الدراسة، نُقدّم بنية تسمى FlipReID مدعومة بخسارة التحويل (flipping loss) لمعالجة هذه المشكلة. وبشكل أكثر تحديدًا، يتم تدريب النماذج التي تعتمد على بنية FlipReID على الصور الأصلية والصور المقلوبة في آنٍ واحد، وعندما يتم دمج خسارة التحويل، فإنها تقلل من متوسط مربع الفرق بين متجهات المُدمج الخاصة بأزواج الصور المقابلة. أظهرت التجارب الواسعة تحسينات متسقة من خلال طريقة العمل هذه. وتحديدًا، تم إقامة سجل جديد على مجموعة بيانات MSMT17، وهي أكبر مجموعة بيانات لـ إعادة التعرف على الأشخاص. يمكن الوصول إلى الكود المصدري عبر الرابط: https://github.com/nixingyang/FlipReID.