HyperAIHyperAI

Command Palette

Search for a command to run...

ST-HOI: خط أساس مكاني-زماني للكشف عن تفاعل الإنسان مع الأشياء في الفيديوهات

Meng-Jiun Chiou Chun-Yu Liao Li-Wei Wang Roger Zimmermann Jiashi Feng

الملخص

اكتشاف التفاعلات بين الإنسان والكائنات (HOI) هو خطوة مهمة نحو فهم بصرى شامل من قبل الآلات. بينما يمكن اكتشاف التفاعلات غير الزمنية (مثل الجلوس على الكرسي) من الصور الثابتة، فمن الصعب حتى للبشر تخمين التفاعلات ذات الصلة بالزمن (مثل فتح/إغلاق الباب) من إطار فيديو واحد، حيث تلعب الإطارات المجاورة دورًا أساسيًا. ومع ذلك، تم استخدام الأساليب التقليدية لاكتشاف التفاعلات بين الإنسان والكائنات التي تعمل فقط على الصور الثابتة لتنبؤ التفاعلات ذات الصلة بالزمن، وهو ما يعادل التخمين دون سياق زمني وقد يؤدي إلى أداء غير مثالي. في هذا البحث، نجسر هذه الفجوة من خلال اكتشاف التفاعلات بين الإنسان والكائنات في الفيديو مع المعلومات الزمنية الصريحة. أولاً، نوضح أن النسخة البسيطة المدركة للزمن من الأساس الشائع لاكتشاف الأفعال لا تعمل في حالة التفاعلات بين الإنسان والكائنات في الفيديو بسبب مشكلة عدم توافق الخصائص. ثم نقترح هيكلًا بسيطًا ولكنه فعال يُسمى اكتشاف التفاعلات بين الإنسان والكائنات المكانية-الزمنية (ST-HOI)، يستخدم المعلومات الزمنية مثل مسارات البشر والكائنات، الخصائص البصرية المحددة بدقة، وخصائص وضع القناع المكانية-الزمنية. قمنا بإنشاء مقاييس جديد لتفاعلات بين الإنسان والكائنات في الفيديو يُطلق عليه VidHOI حيث يشكل النهج المقترح لدينا أساسًا صلبًا لهذا المقاييس.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp