HyperAIHyperAI

Command Palette

Search for a command to run...

لم يعد غير مرئي بعد الآن: فتح إمكانات CLIP للكشف عن التفاعلات البشرية-الأشياء الصفرية التوليدية

Yixin Guo Yu Liu Jianghao Li Weimin Wang Qi Jia

الملخص

يمكن لمرشح التفاعل البشري-الكائن (HOI) بدون تدريب مسبق (zero-shot) التعميم على فئات HOI حتى تلك التي لم تُواجه أثناء التدريب. مستوحى من القدرات المبهرة التي يوفرها CLIP في السياقات بدون تدريب مسبق، تسعى الأساليب الحديثة إلى استغلال تضمينات CLIP لتحسين كفاءة الكشف عن التفاعل البشري-الكائن بدون تدريب مسبق. ومع ذلك، تُدرَّب هذه الأساليب القائمة على التضمينات على الفئات المرئية فقط، مما يؤدي حتمًا إلى خلط بين الفئات المرئية وغير المرئية أثناء الاستدلال. علاوةً على ذلك، لاحظنا أن استخدام التكييف بالنص (prompt-tuning) والمحولات (adapters) يزيد من الفجوة بين الدقة في الفئات المرئية وغير المرئية. لمواجهة هذه التحديات، نقدم أول نموذج مبني على التوليد يستخدم CLIP للكشف عن التفاعل البشري-الكائن بدون تدريب مسبق، ونسميه HOIGen. يتيح هذا النموذج استغلال الإمكانات الكاملة لـ CLIP في توليد الميزات بدلاً من الاستخلاص فقط. لتحقيق ذلك، طوّرنا مولّد ميزات مُدمج بـ CLIP، وفقًا لتوليد ميزات البشر، والكائنات، والاتحاد (union) بينهما. ثم نستخرج ميزات واقعية للعينات المرئية، ونُمزجها مع الميزات الاصطناعية، مما يسمح للنموذج بتدريب الفئات المرئية وغير المرئية معًا. ولتعزيز تقييمات HOI، نبني بنكًا مُكوّنًا من النماذج التوليدية في فرع التعرف على التفاعل البشري-الكائن ثنائيًا، وبنكًا متعدد المعرفة في فرع التعرف على التفاعل البشري-الكائن على مستوى الصورة. أظهرت التجارب الواسعة على معيار HICO-DET أداءً متفوقًا لـ HOIGen على كل من الفئات المرئية وغير المرئية في مختلف الظروف بدون تدريب مسبق، مقارنةً بأساليب أخرى عالية الأداء. يمكن الوصول إلى الكود عبر: https://github.com/soberguo/HOIGen


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp