إلى تعلم القياس العميق القابل للتفسير مع التطابق الهيكلي

كيف تميّز الشبكات العصبية بين صورتين؟ يُعد فهم آلية المطابقة في النماذج العميقة أمرًا بالغ الأهمية لتطوير أنظمة ذكية موثوقة لتطبيقات بصرية خطرة مثل المراقبة والتحكم في الوصول. ومع ذلك، فإن معظم الطرق الحالية لتعلم المقاييس العميقة تُطابق الصور من خلال مقارنة المتجهات المميزة، وهي طريقة تتجاهل البنية المكانية للصور، وبالتالي تفتقر إلى القدرة على التفسير. في هذا البحث، نقدّم طريقة تُسمى تعلم المقاييس العميقة القابلة للتفسير (DIML) لتعلم تمثيلات أكثر شفافية. على عكس الطرق التقليدية لتعلم المقاييس التي تعتمد على مقارنة المتجهات المميزة، نقترح استراتيجية مطابقة بنائية تقوم بمحاذاة تمثيلات مكانية صريحة من خلال حساب تدفق مطابقة مثالي بين خرائط الميزات للصيورتين. تتيح هذه الطريقة للنماذج العميقة تعلّم المقاييس بطريقة أكثر تواضعًا للإنسان، حيث يمكن تحليل تشابه الصور إلى عدة تشابهات جزئية، مع تحديد مساهمة كل جزء في التشابه الكلي. تتميز طريقة العمل بأنها غير مربوطة بنموذج معين، ويمكن تطبيقها على شبكات أساسية جاهزة (off-the-shelf) وطرق تعلم المقاييس المختلفة. تم تقييم طريقة العمل على ثلاث معايير رئيسية في تعلم المقاييس العميقة، تشمل CUB200-2011 وCars196 وStanford Online Products، حيث أظهرت تحسينات كبيرة مقارنة بالطرق الشائعة لتعلم المقاييس، مع تحسين كبير في القدرة على التفسير. يمكن الوصول إلى الكود عبر الرابط: https://github.com/wl-zhao/DIML