HyperAIHyperAI

Command Palette

Search for a command to run...

كل رمية تُعد: استخدام النماذج لعد التكرارات في الفيديوهات

Saptarshi Sinha Alexandros Stergiou Dima Damen

الملخص

عد تكرار الفيديو يُستنتج منه عدد مرات تكرار الأنشطة أو الحركات المتكررة داخل الفيديو. نقترح نهجًا قائمًا على النماذج المرجعية التي تكتشف التوافق البصري للنماذج المرجعية للفيديو عبر التكرارات داخل الفيديوهات المستهدفة. نموذجنا المقترح "كل لقطة لها وزنها" (Every Shot Counts - ESCounts) هو مُشفر-مُفكك قائم على الانتباه يُشفر فيديوهات بأطوال متفاوتة إلى جانب نماذج مرجعية من نفس الفيديو وفيديوهات مختلفة. أثناء التدريب، يقوم ESCounts بتقدير مواقع التوافق العالي مع النماذج المرجعية داخل الفيديو. بالتوازي مع ذلك، يتعلم طريقنا تمثيلًا خفيًا يُشفر تمثيلات الحركات المتكررة العامة، والتي نستخدمها للاستدلال بدون نماذج مرجعية وفي حالة عدم وجود بيانات تدريبية (Zero-shot inference). التجارب الواسعة التي أجريت على مجموعات البيانات الشائعة الاستخدام (RepCount، Countix، وUCFRep) تظهر حصول ESCounts على أفضل الأداء في جميع المجموعات الثلاث. كما أن الاختبارات التفصيلية تؤكد فعالية طريقتنا بشكل أكبر.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp