التمثيل الموحد الواعي للجزء بين اللغة والعظم للاعتراف بالحركة دون الحاجة إلى تدريب مسبق

رغم التقدم الملحوظ الذي تحقق في مجال التعرف على الحركات باستخدام الهياكل العظمية تحت الإشراف، فإن تحدي التعرف على الحركات بدون رؤية مسبقة (zero-shot recognition) لا يزال نسبيًا غير مستكشف. في هذا البحث، ندعي أن الاعتماد فقط على مواءمة الدلالات على مستوى التسميات والميزات الهيكلية العامة غير كافٍ لنقل المعرفة البصرية المحلية بشكل فعال من الفئات المعروفة إلى الفئات غير المعروفة. لمعالجة هذه القصور، نقدم تمثيلًا موحدًا واعيًا بالجزء بين اللغة والهيكل العظمي (PURLS) لاستكشاف المواءمة البصرية-الدلالية على المستويين المحلي والعالمي. يُدخل PURLS وحدة دفع جديدة (prompting module) وأداة تقسيم مبتكرة (partitioning module) لتوليد تمثيلات نصية وبصرية متوازنة عبر مستويات مختلفة. تقوم الوحدة الأولى باستغلال GPT-3 المدرب مسبقًا لاستنتاج وصف دقيق للحركات العالمية والمحلية (المبنية على أجزاء الجسم والمبنية على الفترات الزمنية) من التسميات الأصلية للحركة. أما الأداة الثانية فتستخدم استراتيجية عينة مرنة لتصنيف الميزات البصرية من حركات جميع مفاصل الجسم التي تكون ذات صلة دلالية بوصف معين. يتم تقييم نهجنا على مجموعة متنوعة من النماذج الأساسية للهياكل العظمية واللغة وعلى ثلاثة قواعد بيانات كبيرة، وهي: NTU-RGB+D 60، NTU-RGB+D 120، ومجموعة بيانات جديدة تم جمعها حديثًا باسم Kinetics-skeleton 200. تظهر النتائج جامعية PURLS وأدائها المتفوق، حيث يتجاوز الحلول السابقة القائمة على الهياكل العظمية والأسس القياسية من المجالات الأخرى. يمكن الوصول إلى الكود المصدر من خلال الرابط: https://github.com/azzh1/PURLS.