HyperAIHyperAI

Command Palette

Search for a command to run...

ماذا ومتى ننظر؟: شبكة اقتراح الفترة الزمنية للكشف عن العلاقات في الفيديو

Sangmin Woo Junhyug Noh Kangil Kim

الملخص

تحديد العلاقات بين الأشياء هو أمر أساسي لفهم المشهد. رغم اقتراح العديد من الأعمال في مجال نمذجة العلاقات في نطاق الصور، فإن هناك العديد من القيود في نطاق الفيديو بسبب الديناميكيات الصعبة للتفاعلات المكانية-الزمانية (مثل، بين أي أشياء توجد تفاعلات؟ متى تبدأ وتنتهي العلاقات؟). حتى الآن، تم اقتراح طريقتين ممثلتين لمعالجة الكشف عن العلاقات البصرية في الفيديو (VidVRD): الطريقة القائمة على المقاطع والطريقة القائمة على النوافذ. نشير أولاً إلى حدود هاتين الطريقتين ونقترح نهجًا جديدًا يُسمى شبكة اقتراح الفترة الزمنية (TSPN). تُحدد TSPN ما يجب البحث عنه: فهي تقلل من مساحة البحث عن العلاقات بتقييم مدى وجود علاقة بين زوج من الأشياء، أي قياس مدى احتمالية وجود علاقة. كما تحدد TSPN متى يجب البحث: فهي تتوقع بشكل متزامن زمن بدء وانتهاء (أي الفترات الزمنية) وأصناف جميع العلاقات المحتملة باستخدام سياق الفيديو الكامل. هذان التصميمان يتيحان سيناريو فوز-فوز: حيث يسرعان التدريب بمقدار ضعفين أو أكثر مقارنة بالطرق الحالية ويحققان أداءً تنافسيًا على مقعدين للمعايير المرجعية لـ VidVRD (ImageNet-VidVDR وVidOR). علاوة على ذلك، تُظهر التجارب الاستقصائية الشاملة فعالية نهجنا. يمكن الحصول على الرموز البرمجية من https://github.com/sangminwoo/Temporal-Span-Proposal-Network-VidVRD.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ماذا ومتى ننظر؟: شبكة اقتراح الفترة الزمنية للكشف عن العلاقات في الفيديو | مستندات | HyperAI