منذ 2 أشهر
نماذج التعلم للأفعال وتفاعلات الشخص-الكائن مع نقلها إلى الإجابة على الأسئلة
Arun Mallya; Svetlana Lazebnik

الملخص
يقترح هذا البحث نماذج شبكات عصبية تلافيفية عميقة تستفيد من السياق المحلي والعالمي لتنبؤات التسميات النشاط البشري في الصور الثابتة، مما يحقق أداءً رائدًا على مجموعتين من البيانات حديثتين تحتوي كل منهما على مئات التسميات. نستخدم التعلم متعدد الحالات للتعامل مع نقص الإشراف على مستوى حالات الأفراد الفردية، ونظام الخسارة الموزون للتعامل مع البيانات التدريبية غير المتوازنة. بالإضافة إلى ذلك، نوضح كيفية استخدام الخصائص المتخصصة التي تم تدريبها على هذه المجموعات من البيانات لتحسين الدقة في مهمة الإجابة على الأسئلة البصرية (VQA)، وفي شكل أسئلة اختيار متعدد لملء الفراغات (Visual Madlibs). بصفة خاصة، نعالج نوعين من الأسئلة حول النشاط البشري والعلاقة بين الشخص والكائن، ونظهر تحسينات مقارنة بالخصائص العامة التي تم تدريبها على مهمة تصنيف ImageNet.