تمثيلات التنسور للتعرف على الإجراء

تتميز التصرفات البشرية في تسلسلات الفيديو بالتفاعل المعقد بين السمات المكانية وديناميكيات الزمن. في هذا البحث، نقترح تمثيلات تماثلية جديدة لالتقاط مدمج لهذه العلاقات ذات الرتبة العالية بين السمات البصرية، وذلك لغرض التعرف على التصرفات. نقدم تمثيلين جديدين مبنين على التماثل، وهما: (أ) Kernel التوافق التسلسلي (SCK)، و(ب) Kernel التوافق الديناميكي (DCK). يعتمد SCK على الارتباطات المكانية الزمنية بين السمات، بينما يُعد DCK نموذجًا صريحًا للديناميكيات التصرفية في التسلسل. كما نستعرض تعميمًا لـ SCK يُعرف بـ SCK(+)، والذي يعمل على التسلسلات الجزئية لالتقاط التفاعل المحلي-الكلي للارتباطات، ويمكنه دمج مدخلات متعددة الأنواع، مثل الهياكل العظمية ذات الأبعاد الثلاثية (3D) ونقاط المفاصل البشرية، بالإضافة إلى درجات التصنيف لكل إطار تم الحصول عليها من نماذج تعلم عميق تم تدريبها على مقاطع الفيديو. ونُقدّم عملية تبسيط (Linearization) لهذه الـ kernels، ما يؤدي إلى وصفات مدمجة وسريعة. نُجري تجارب على (أ) تسلسلات تصرفات مبنية على الهياكل العظمية ثلاثية الأبعاد، (ب) مقاطع فيديو دقيقة التفصيل، و(ج) مقاطع فيديو قياسية غير دقيقة التفصيل. وبما أن تمثيلاتنا النهائية هي تماثلات (Tensors) تلتقط العلاقات ذات الرتبة العالية للسمات، فهي ترتبط بحدوث التواجد المشترك (co-occurrences) لتمكين التعرف القوي على التفاصيل الدقيقة. نستخدم تماثلات ذات رتبة عالية، إلى جانب ما يُعرف بـ "التوحيد القوي القيمي" (Eigenvalue Power Normalization - EPN)، والذي طالما اُفترض أنه قادر على اكتشاف الطيفي للحدوثات ذات الرتبة العالية، وبالتالي اكتشاف العلاقات الدقيقة بين السمات، وليس مجرد عد السمات في تسلسلات التصرفات. ونُثبت أن تماثلًا من الرتبة r، مبنيًا على سمات ذات أبعاد Z، مزودًا بـ EPN، يُمكنه بالفعل اكتشاف ما إذا كان قد تم "إسقاط" حدوث واحد على الأقل ذي رتبة أعلى في أحد فراغات التماثل الفرعية التي تبلغ عددًا من المجموعات الثنائية (binom(Z,r)) وذات أبعاد r، والتي تمثلها التماثل، وبالتالي تشكّل مقياسًا يُعرف بـ "التوحيد القوي التماثلي" (Tensor Power Normalization) المزود بـ binom(Z*,r) من "الكواشف" (detectors) هذه.