ST-HOI: خط أساس مكاني-زماني للكشف عن تفاعل الإنسان مع الأشياء في الفيديوهات

اكتشاف التفاعلات بين الإنسان والكائنات (HOI) هو خطوة مهمة نحو فهم بصرى شامل من قبل الآلات. بينما يمكن اكتشاف التفاعلات غير الزمنية (مثل الجلوس على الكرسي) من الصور الثابتة، فمن الصعب حتى للبشر تخمين التفاعلات ذات الصلة بالزمن (مثل فتح/إغلاق الباب) من إطار فيديو واحد، حيث تلعب الإطارات المجاورة دورًا أساسيًا. ومع ذلك، تم استخدام الأساليب التقليدية لاكتشاف التفاعلات بين الإنسان والكائنات التي تعمل فقط على الصور الثابتة لتنبؤ التفاعلات ذات الصلة بالزمن، وهو ما يعادل التخمين دون سياق زمني وقد يؤدي إلى أداء غير مثالي. في هذا البحث، نجسر هذه الفجوة من خلال اكتشاف التفاعلات بين الإنسان والكائنات في الفيديو مع المعلومات الزمنية الصريحة. أولاً، نوضح أن النسخة البسيطة المدركة للزمن من الأساس الشائع لاكتشاف الأفعال لا تعمل في حالة التفاعلات بين الإنسان والكائنات في الفيديو بسبب مشكلة عدم توافق الخصائص. ثم نقترح هيكلًا بسيطًا ولكنه فعال يُسمى اكتشاف التفاعلات بين الإنسان والكائنات المكانية-الزمنية (ST-HOI)، يستخدم المعلومات الزمنية مثل مسارات البشر والكائنات، الخصائص البصرية المحددة بدقة، وخصائص وضع القناع المكانية-الزمنية. قمنا بإنشاء مقاييس جديد لتفاعلات بين الإنسان والكائنات في الفيديو يُطلق عليه VidHOI حيث يشكل النهج المقترح لدينا أساسًا صلبًا لهذا المقاييس.