HyperAIHyperAI

Command Palette

Search for a command to run...

التمثيل الموحد الواعي للجزء بين اللغة والعظم للاعتراف بالحركة دون الحاجة إلى تدريب مسبق

Anqi Zhu Qiuhong Ke* Mingming Gong James Bailey

الملخص

رغم التقدم الملحوظ الذي تحقق في مجال التعرف على الحركات باستخدام الهياكل العظمية تحت الإشراف، فإن تحدي التعرف على الحركات بدون رؤية مسبقة (zero-shot recognition) لا يزال نسبيًا غير مستكشف. في هذا البحث، ندعي أن الاعتماد فقط على مواءمة الدلالات على مستوى التسميات والميزات الهيكلية العامة غير كافٍ لنقل المعرفة البصرية المحلية بشكل فعال من الفئات المعروفة إلى الفئات غير المعروفة. لمعالجة هذه القصور، نقدم تمثيلًا موحدًا واعيًا بالجزء بين اللغة والهيكل العظمي (PURLS) لاستكشاف المواءمة البصرية-الدلالية على المستويين المحلي والعالمي. يُدخل PURLS وحدة دفع جديدة (prompting module) وأداة تقسيم مبتكرة (partitioning module) لتوليد تمثيلات نصية وبصرية متوازنة عبر مستويات مختلفة. تقوم الوحدة الأولى باستغلال GPT-3 المدرب مسبقًا لاستنتاج وصف دقيق للحركات العالمية والمحلية (المبنية على أجزاء الجسم والمبنية على الفترات الزمنية) من التسميات الأصلية للحركة. أما الأداة الثانية فتستخدم استراتيجية عينة مرنة لتصنيف الميزات البصرية من حركات جميع مفاصل الجسم التي تكون ذات صلة دلالية بوصف معين. يتم تقييم نهجنا على مجموعة متنوعة من النماذج الأساسية للهياكل العظمية واللغة وعلى ثلاثة قواعد بيانات كبيرة، وهي: NTU-RGB+D 60، NTU-RGB+D 120، ومجموعة بيانات جديدة تم جمعها حديثًا باسم Kinetics-skeleton 200. تظهر النتائج جامعية PURLS وأدائها المتفوق، حيث يتجاوز الحلول السابقة القائمة على الهياكل العظمية والأسس القياسية من المجالات الأخرى. يمكن الوصول إلى الكود المصدر من خلال الرابط: https://github.com/azzh1/PURLS.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التمثيل الموحد الواعي للجزء بين اللغة والعظم للاعتراف بالحركة دون الحاجة إلى تدريب مسبق | مستندات | HyperAI