نحو تمثيل شامل للاعتراف بالأفعال غير المرئية

التعرف على الأنشطة غير المرئية (UAR) يهدف إلى التعرف على فئات أنشطة جديدة دون أمثلة تدريبية. بينما ركزت الطرق السابقة على تقسيمات داخلية للبيانات بين المرئي وغير المرئي، فإن هذه الورقة البحثية تقترح مسارًا يستخدم مصدر تدريب كبير لتحقيق تمثيل شامل (UR) يمكنه التعميم في سيناريو أكثر واقعية للتعرف على الأنشطة غير المرئية عبر مجموعات البيانات (CD-UAR). نعالج أولًا مشكلة UAR كمشكلة تعلم متعدد الحالات بشكل عام (GMIL) واكتشفنا "الكتل الأساسية" من مجموعة بيانات ActivityNet الكبيرة باستخدام نواة التوزيع. يتم الحفاظ على المكونات البصرية والمعنوية الأساسية في فضاء مشترك لتحقيق UR التي يمكنها التعميم بكفاءة إلى مجموعات بيانات جديدة. يمكن تحسين الأمثلة المتوقعة لـ UR من خلال التكيف المعنوي البسيط، ثم يمكن التعرف مباشرة على النشاط غير المرئي باستخدام UR أثناء الاختبار. بدون أي تدريب إضافي، تظهر التجارب الواسعة تحسينات كبيرة على مقاييس UCF101 و HMDB51.