Command Palette
Search for a command to run...
شبكة التضمين البصري للترجمة لاكتشاف العلاقات البصرية
شبكة التضمين البصري للترجمة لاكتشاف العلاقات البصرية
Hanwang Zhang; Zawlin Kyaw; Shih-Fu Chang; Tat-Seng Chua
الملخص
العلاقات البصرية، مثل "شخص يركب دراجة" و "دراجة بجانب سيارة"، تقدم فهمًا شاملًا للمشهد في صورة، وقد أظهرت بالفعل فائدتها الكبيرة في ربط الرؤية الحاسوبية واللغة الطبيعية. ومع ذلك، بسبب التعقيد التوافقي الصعب لنمذجة ثلاثيات العلاقة بين الموضوع والصفة والموضوع، لم يتم إجراء الكثير من العمل لتحديد موقع وتوقع العلاقات البصرية. مستوحى من التقدم الحديث في تعلم تمثيل العلاقات في قواعد المعرفة وشبكات الكشف عن الأشياء باستخدام التفاف (Convolutional Object Detection Networks)، نقترح شبكة تضمين الترجمة البصرية (VTransE) لاكتشاف العلاقات البصرية. تقوم VTransE بتوضع الأشياء في فضاء علاقات ذي بعد منخفض حيث يمكن نمذجة العلاقة كترجمة متجهة بسيطة، أي أن الموضوع + الصفة ≈ الموضوع. نقترح طبقة استخراج ميزات جديدة تمكن من نقل المعرفة بين الأشياء والعلاقات بطريقة تفافية كاملة (Fully-Convolutional) تدعم التدريب والاستدلال في مرور واحد للأمام/للخلف. حسب علمنا، VTransE هي أول شبكة اكتشاف علاقات تعمل بشكل متكامل من البداية إلى النهاية (End-to-End). نوضح فعالية VTransE مقارنة بالطرق الرائدة الأخرى على مجموعةين كبيرتين من البيانات: Visual Relationship و Visual Genome. لاحظ أن حتى وإن كانت VTransE نموذجًا بصريًا خالصًا، فهي ما زالت تنافس النموذج متعدد الوسائط (Multi-modal Model) لـ لو (Lu) مع الأولويات اللغوية.