HyperAIHyperAI
منذ 4 أشهر

AM Flow: متكيفات للمعالجة الزمنية في التعرف على الأفعال

Agrawal, Tanay ; Ali, Abid ; Dantcheva, Antitza ; Bremond, Francois
AM Flow: متكيفات للمعالجة الزمنية في التعرف على الأفعال
الملخص

النماذج العميقة، وخاصة نماذج \textit{الصورة}، قد اكتسبت مؤخرًا قابلية تعميم ومتانة أكبر. في هذا العمل، نقترح استغلال هذه التطورات في مجال تصنيف \textit{الفيديو}. تعاني نماذج أساس الفيديو من الحاجة إلى التدريب المسبق الواسع والوقت الطويل للتدريب. بهدف تخفيف مثل هذه القيود، نقترح "خريطة الاهتمام (AM) الجريانية" لنماذج الصور، وهي طريقة لتحديد البكسلات ذات الصلة بالحركة في كل إطار فيديو مدخل. وفي هذا السياق، نقترح طريقتين لحساب جريان خريطة الاهتمام (AM)، اعتمادًا على حركة الكاميرا. يسمح جريان خريطة الاهتمام (AM) بفصل المعالجة المكانية والزمنية، مع تقديم نتائج أفضل من المعالجة المكانية-الزمنية المركبة (كما هو الحال في نماذج الفيديو). تسهل المحولات، وهي إحدى التقنيات الشائعة في التعلم النقل ذو الكفاءة العالية في المعلمات، دمج جريان خريطة الاهتمام (AM) في النماذج المسبقة التدريب للصور، مما يخفف الحاجة إلى إعادة التدريب الكامل. نوسع نطاق المحولات إلى "محولات المعالجة الزمنية" بإدخال وحدة معالجة زمنية ضمن المحولات. يحقق عملنا تقاربًا أسرع، مما يقلل من عدد الدورات اللازمة للتدريب. علاوة على ذلك، نمنح نموذج الصورة القدرة على تحقيق أفضل النتائج الحالية على مجموعات بيانات شهيرة للتعرف على الأفعال. وهذا يقلل من وقت التدريب ويبسط عملية التدريب المسبق. نقدم تجارب على مجموعات البيانات Kinetics-400 وSomething-Something v2 وToyota Smarthome، مما يظهر أفضل النتائج الحالية أو ما يعادلها.