HyperAIHyperAI

Command Palette

Search for a command to run...

الشبكات الاستعلامية الزمنية لفهم الفيديو الدقيق

Chuhan Zhang Ankush Gupta Andrew Zisserman

الملخص

هدفنا في هذا العمل هو التصنيف الدقيق للإجراءات في مقاطع الفيديو غير المُعدَّلة، حيث قد تمتد هذه الإجراءات عبر فترات زمنية طويلة أو قد تمتد فقط على عدد قليل من الإطارات في الفيديو. وقد قمنا بتحويل هذه المشكلة إلى آلية استعلام-استجابة، حيث يُوجَّه كل استعلام إلى سؤال محدد، ويملك مجموعة علامات استجابة خاصة به. ونقدم في هذا العمل أربع مساهمات رئيسية: (أولاً) نُقدِّم نموذجًا جديدًا يُسمَّى "شبكة الاستعلام الزمني" (Temporal Query Network)، التي تُمكِّن من وظيفة الاستعلام-الاستجابة، وتوفر فهمًا هيكلياً للإجراءات الدقيقة. وتُركِّز هذه الشبكة على المقاطع ذات الصلة لكل استعلام باستخدام آلية انتباه زمني، ويمكن تدريبها باستخدام العلامات الخاصة بكل استعلام فقط. (ثانيًا) نُقدِّم طريقة جديدة تُسمَّى "تحديث بنك الميزات العشوائي"، لتدريب الشبكة على مقاطع فيديو ذات أطوال مختلفة، مع استخدام العينة الكثيفة المطلوبة للإجابة على الاستفسارات الدقيقة. (ثالثًا) نُقارن بين شبكة الاستعلام الزمني (TQN) وأطر عمل أخرى وطرق إشراف نصي، ونحلل مزاياها وعيوبها. وأخيرًا، نُقيِّم الطريقة بشكل واسع على مجموعتي بيانات FineGym وDiving48 لتصنيف الإجراءات الدقيقة، ونُفَوِّت الحد الأقصى الحالي للتقنيات باستخدام فقط ميزات RGB.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp