HACS: مجموعة مقاطع وأجزاء الأفعال البشرية للاعتراف والتحديد الزمني

يقدم هذا البحث مجموعة بيانات جديدة على نطاق واسع للاعتراف وتوصيف الأحداث الزمنية للحركات البشرية المستخلصة من مقاطع الفيديو على الويب. نشير إليها باسم HACS (مقاطع وفواصل الحركات البشرية). نستفيد من التوافق والاختلاف بين المصنفات البصرية لتعدين المقاطع القصيرة المرشحة تلقائيًا من الفيديوهات غير المصنفة، والتي يتم تأكيدها بعد ذلك بواسطة مصححين بشر. تُعرف المجموعة الناتجة بالمقاطع HACS. من خلال عملية منفصلة، نجمع أيضًا تعليمات تحديد حدود فواصل الحركة. يُطلق على المجموعة الناتجة اسم فواصل HACS. بشكل عام، تتكون مقاطع HACS من 1.5 مليون مقطع مصنف تم استخراجها من 504 ألف فيديو غير مقصوص، بينما تحتوي فواصل HACS على 139 ألف فاصل حركة تم تصنيفه بكثافة في 50 ألف فيديو غير مقصوص يغطي 200 فئة حركة. تحتوي مقاطع HACS على أمثلة أكثر مما تحتوي عليه أي مجموعة بيانات فيديو موجودة حاليًا كمعيار للمقارنة. هذا يجعل مجموعتنا البيانات معيارًا كبيرًا للاعتراف بالحركات ومصدرًا ممتازًا لتعلم الخصائص الزمانية والمكانية. في تجاربنا للنقل التعليمي على ثلاثة معايير مستهدفة، أظهرت مقاطع HACS أداءً أفضل من Kinetics-600 وMoments-In-Time وSports1M كمصدر للتدريب الأولي. بالنسبة لفواصل HACS، نقيم طرق اقتراح الحركات والتوصيف الزمني لها الأكثر تقدمًا، ونسلط الضوء على التحديات الجديدة التي تطرحها تعليمنا الكثيفة زمنيًا.