HyperAIHyperAI

Command Palette

Search for a command to run...

تنبؤ التفاعلات بين الإنسان والكائنات في الفيديوهات من خلال تتبع النظر

Zhifan Ni Esteve Valls Mascaró Hyemin Ahn Dongheui Lee

الملخص

فهم التفاعلات بين الإنسان والأشياء (HOIs) من الفيديو أمر ضروري لفهم المشهد البصري بشكل كامل. وقد تم التعامل مع هذا المسار البحثي من خلال الكشف عن تفاعلات الإنسان والأشياء من الصور، وأخيراً من الفيديوهات. ومع ذلك، فإن مهمة التنبؤ بالتفاعلات بين الإنسان والأشياء في الفيديو من وجهة نظر الغير لا تزال قليلة الدراسة. في هذه الورقة البحثية، نصمم إطارًا للكشف عن التفاعلات الحالية بين الإنسان والأشياء وتنبؤها في المستقبل في الفيديوهات. نقترح الاستفادة من معلومات النظر البشري، حيث يركز الناس غالبًا على شيء قبل التفاعل معه. يتم دمج هذه الخصائص المرتبطة بالنظر مع سياقات المشهد ومظهر الأزواج البشرية-الشيء من خلال محول زماني-مكاني (spatio-temporal transformer). لتقييم النموذج في مهمة التنبؤ بالتفاعلات بين الإنسان والأشياء في سيناريو متعدد الأشخاص، نقترح مجموعة من مقاييس التسميات المتعددة حسب الشخص (person-wise multi-label metrics). يتم تدريب نموذجنا وتقييمه على مجموعة بيانات VidHOI، والتي تحتوي على مقاطع فيديو توثق الحياة اليومية وهي حاليًا أكبر مجموعة بيانات فيديو للتفاعلات بين الإنسان والأشياء. أظهرت النتائج التجريبية في مهمة الكشف عن التفاعلات بين الإنسان والأشياء أن نهجنا يحسن القاعدة الأساسية بنسبة 36.3% بشكل نسبي. بالإضافة إلى ذلك، أجرينا دراسة تقليص موسعة (ablation study) لبيان فعالية التعديلات والإضافات التي أدخلناها على المحول الزماني-المكاني. الرمز البرمجي الخاص بنا متاح بشكل عام على الرابط https://github.com/nizhf/hoi-prediction-gaze-transformer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp