منذ 2 أشهر

تنبؤ التفاعلات بين الإنسان والكائنات في الفيديوهات من خلال تتبع النظر

Ni, Zhifan ; Mascaró, Esteve Valls ; Ahn, Hyemin ; Lee, Dongheui

الملخص

فهم التفاعلات بين الإنسان والأشياء (HOIs) من الفيديو أمر ضروري لفهم المشهد البصري بشكل كامل. وقد تم التعامل مع هذا المسار البحثي من خلال الكشف عن تفاعلات الإنسان والأشياء من الصور، وأخيراً من الفيديوهات. ومع ذلك، فإن مهمة التنبؤ بالتفاعلات بين الإنسان والأشياء في الفيديو من وجهة نظر الغير لا تزال قليلة الدراسة. في هذه الورقة البحثية، نصمم إطارًا للكشف عن التفاعلات الحالية بين الإنسان والأشياء وتنبؤها في المستقبل في الفيديوهات. نقترح الاستفادة من معلومات النظر البشري، حيث يركز الناس غالبًا على شيء قبل التفاعل معه. يتم دمج هذه الخصائص المرتبطة بالنظر مع سياقات المشهد ومظهر الأزواج البشرية-الشيء من خلال محول زماني-مكاني (spatio-temporal transformer). لتقييم النموذج في مهمة التنبؤ بالتفاعلات بين الإنسان والأشياء في سيناريو متعدد الأشخاص، نقترح مجموعة من مقاييس التسميات المتعددة حسب الشخص (person-wise multi-label metrics). يتم تدريب نموذجنا وتقييمه على مجموعة بيانات VidHOI، والتي تحتوي على مقاطع فيديو توثق الحياة اليومية وهي حاليًا أكبر مجموعة بيانات فيديو للتفاعلات بين الإنسان والأشياء. أظهرت النتائج التجريبية في مهمة الكشف عن التفاعلات بين الإنسان والأشياء أن نهجنا يحسن القاعدة الأساسية بنسبة 36.3% بشكل نسبي. بالإضافة إلى ذلك، أجرينا دراسة تقليص موسعة (ablation study) لبيان فعالية التعديلات والإضافات التي أدخلناها على المحول الزماني-المكاني. الرمز البرمجي الخاص بنا متاح بشكل عام على الرابط https://github.com/nizhf/hoi-prediction-gaze-transformer.