MILDNet: معمارية ترتيب عميقة خفيفة الوزن بمقياس واحد

هندسة الشبكة العصبية العميقة متعددة المقاييس [1، 2، 3] تنجح في التقاط وصفات الصور على المستويين الدقيق والخشن للمهمة البصرية للتشابه، لكنها تأتي مع أعباء ذاكرة باهظة التكلفة وتأخير. في هذا البحث، نقترح هندسة شبكة عصبية عميقة جديدة تنافسية تُسمى MILDNet، والتي تتميز بأنها مضغوطة بشكل كبير (حوالي ثلاثة أضعاف). مستوحاة من حقيقة أن الطبقات المتتالية للشبكات العصبية العميقة تمثل الصورة بمستويات متزايدة من التجريد، قمنا بتقليص نموذج الترتيب العميق لدينا إلى شبكة عصبية واحدة عن طريق ربط التنشيطات من عدة طبقات وسيطة مع الطبقة الأخيرة. تم تدريب النموذج على مجموعة بيانات Street2shop المشهورة [4]، وقد أظهرنا أن نهجنا يحقق نفس مستوى الأداء مثل أفضل النماذج الحالية مع ثلث عدد المعلمات وحجم النموذج ووقت التدريب بالإضافة إلى خفض كبير في وقت الاستدلال. كما تم إظهار أهمية الطبقات الوسيطة في مهمة استرجاع الصور على مجموعات البيانات الشائعة مثل Holidays وOxford وParis [5]. لذا حتى وإن كانت تجاربنا قد أجريت في مجال التجارة الإلكترونية، فإنها قابلة للتطبيق في مجالات أخرى أيضًا. قمنا أيضًا بدراسة تقليصية لتأكيد فرضيتنا من خلال فحص تأثير إضافة كل طبقة وسيطة. وفي هذا السياق، نقدم أيضًا نوعين آخرين مفيدين من MILDNet: نموذج محمول (أصغر بـ12 مرة) للأجهزة الحوافية ونموذج ذو سمات مضغوطة (متجهات ميزات ببعد 512) لأنظمة ذات ذواكر أقل لتقليل تكلفة الترتيب. بالإضافة إلى ذلك، نقدم طريقة حدسية لإنشاء مجموعة بيانات ثلاثية داخلية مخصصة بشكل آلي، وهي عملية صعبة للغاية عند القيام بها يدويًا. يمكن أيضًا تنفيذ هذه الحل كحل شامل للتشابه البصري. وأخيرًا، نقدم بنية كاملة للإنتاج التي تقوم حاليًا بتشغيل التشابه البصري في Fynd.