HyperAIHyperAI
منذ 2 أشهر

كل رمية تُعد: استخدام النماذج لعد التكرارات في الفيديوهات

Saptarshi Sinha; Alexandros Stergiou; Dima Damen
كل رمية تُعد: استخدام النماذج لعد التكرارات في الفيديوهات
الملخص

عد تكرار الفيديو يُستنتج منه عدد مرات تكرار الأنشطة أو الحركات المتكررة داخل الفيديو. نقترح نهجًا قائمًا على النماذج المرجعية التي تكتشف التوافق البصري للنماذج المرجعية للفيديو عبر التكرارات داخل الفيديوهات المستهدفة. نموذجنا المقترح "كل لقطة لها وزنها" (Every Shot Counts - ESCounts) هو مُشفر-مُفكك قائم على الانتباه يُشفر فيديوهات بأطوال متفاوتة إلى جانب نماذج مرجعية من نفس الفيديو وفيديوهات مختلفة. أثناء التدريب، يقوم ESCounts بتقدير مواقع التوافق العالي مع النماذج المرجعية داخل الفيديو. بالتوازي مع ذلك، يتعلم طريقنا تمثيلًا خفيًا يُشفر تمثيلات الحركات المتكررة العامة، والتي نستخدمها للاستدلال بدون نماذج مرجعية وفي حالة عدم وجود بيانات تدريبية (Zero-shot inference). التجارب الواسعة التي أجريت على مجموعات البيانات الشائعة الاستخدام (RepCount، Countix، وUCFRep) تظهر حصول ESCounts على أفضل الأداء في جميع المجموعات الثلاث. كما أن الاختبارات التفصيلية تؤكد فعالية طريقتنا بشكل أكبر.

كل رمية تُعد: استخدام النماذج لعد التكرارات في الفيديوهات | أحدث الأوراق البحثية | HyperAI