HyperAIHyperAI
منذ 18 أيام

ارسم لي تلك الحذاء

{Chen-Change Loy, Yi-Zhe Song, Qian Yu, Timothy M. Hospedales, Tao Xiang, Feng Liu}
ارسم لي تلك الحذاء
الملخص

نُجري دراسة لمشكلة استرجاع الصور القائمة على الرسومات التوضيحية الدقيقة (SBIR)، حيث تُستخدم الرسومات اليدوية الحرة كاستعلامات لإجراء استرجاع على مستوى المُثَل (instance-level) للصور. يُعد هذا المهمة أمرًا بالغ الصعوبة لأسباب عديدة: (أ) تتطلب المقارنات البصرية دقة عالية، وتحتاج إلى تنفيذها عبر مجالات مختلفة؛ (ب) تكون الرسومات اليدوية (بأصابع الأيدي) عالية التعميم، مما يجعل عملية المطابقة الدقيقة أكثر صعوبة؛ وأهم من ذلك، (ج) تفتقر البيانات المُعلَّمة التي تضم أزواج رسومات-صور عبر مجالات مختلفة، والتي تُستخدم لتدريب النماذج، إلى الحجم الكافي، مما يشكل تحديًا كبيرًا أمام العديد من التقنيات الحديثة في التعلم الآلي. في هذه الورقة، ولفترة أولى، نتناول جميع هذه التحديات بشكل متكامل، مقدِّمين خطوة مهمة نحو تمكين قدرات تُمكِّن تطبيقات تجارية لاسترجاع الصور القائمة على الرسومات. نُقدِّم قاعدة بيانات جديدة تضم 1432 زوجًا من الرسومات والصور من فئتين، مع 32000 تسمية ترتيب ثلاثية دقيقة. ثم نطوِّر نموذجًا عميقًا للترتيب الثلاثي (triplet-ranking) مخصصًا لاسترجاع الصور على مستوى المُثَل في سياق SBIR، باستخدام استراتيجية مبتكرة لتوسيع البيانات (data augmentation) واستراتيجية تدريب مُتعدِّد المراحل (staged pre-training) لتخفيف مشكلة نقص البيانات التدريبية الدقيقة. أجرينا تجارب واسعة تُسهم في تقديم مجموعة من الرؤى حول التحديات المتعلقة بملء الفجوة في البيانات، وتجنب التعلُّم الزائد (over-fitting) عند تدريب الشبكات العميقة في مهام الترتيب الدقيقة عبر المجالات المختلفة.