استدلال الخطوات البصرية باستخدام wikiHow

فهم التسلسل الزمني للخطوات اللازمة لإتمام هدف يمكن أن يساعد الأنظمة الذكية في فهم الأنشطة البشرية. لقد تم دراسة مهمة استدلال الهدف والخطوات في مجال معالجة اللغة الطبيعية (NLP) من قبل، حيث ركزت على النصوص. نقدم الآن المكافئ البصري لهذه المهمة. نقترح مهمة استدلال الهدف والخطوات البصرية (VGSI)، حيث يتم تقديم هدف نصي للنموذج ويتعين عليه اختيار أي من الصور الأربعة يمثل خطوة ممكنة نحو تحقيق ذلك الهدف. باستخدام مجموعة بيانات جديدة تم جمعها من موقع wikiHow تتكون من 772,277 صورة تمثل أنشطة بشرية، نظهر أن مهمتنا تشكل تحديًا للنماذج متعددة الوسائط المتقدمة. علاوة على ذلك، يمكن نقل التمثيل متعدد الوسائط المستمد من بياناتنا بشكل فعال إلى مجموعات بيانات أخرى مثل HowTo100m، مما يزيد دقة VGSI بنسبة 15 - 20%. ستيسّر مهمتنا عملية الاستدلال متعددة الوسائط حول الأحداث الإجرائية.