لم يعد غير مرئي بعد الآن: فتح إمكانات CLIP للكشف عن التفاعلات البشرية-الأشياء الصفرية التوليدية

يمكن لمرشح التفاعل البشري-الكائن (HOI) بدون تدريب مسبق (zero-shot) التعميم على فئات HOI حتى تلك التي لم تُواجه أثناء التدريب. مستوحى من القدرات المبهرة التي يوفرها CLIP في السياقات بدون تدريب مسبق، تسعى الأساليب الحديثة إلى استغلال تضمينات CLIP لتحسين كفاءة الكشف عن التفاعل البشري-الكائن بدون تدريب مسبق. ومع ذلك، تُدرَّب هذه الأساليب القائمة على التضمينات على الفئات المرئية فقط، مما يؤدي حتمًا إلى خلط بين الفئات المرئية وغير المرئية أثناء الاستدلال. علاوةً على ذلك، لاحظنا أن استخدام التكييف بالنص (prompt-tuning) والمحولات (adapters) يزيد من الفجوة بين الدقة في الفئات المرئية وغير المرئية. لمواجهة هذه التحديات، نقدم أول نموذج مبني على التوليد يستخدم CLIP للكشف عن التفاعل البشري-الكائن بدون تدريب مسبق، ونسميه HOIGen. يتيح هذا النموذج استغلال الإمكانات الكاملة لـ CLIP في توليد الميزات بدلاً من الاستخلاص فقط. لتحقيق ذلك، طوّرنا مولّد ميزات مُدمج بـ CLIP، وفقًا لتوليد ميزات البشر، والكائنات، والاتحاد (union) بينهما. ثم نستخرج ميزات واقعية للعينات المرئية، ونُمزجها مع الميزات الاصطناعية، مما يسمح للنموذج بتدريب الفئات المرئية وغير المرئية معًا. ولتعزيز تقييمات HOI، نبني بنكًا مُكوّنًا من النماذج التوليدية في فرع التعرف على التفاعل البشري-الكائن ثنائيًا، وبنكًا متعدد المعرفة في فرع التعرف على التفاعل البشري-الكائن على مستوى الصورة. أظهرت التجارب الواسعة على معيار HICO-DET أداءً متفوقًا لـ HOIGen على كل من الفئات المرئية وغير المرئية في مختلف الظروف بدون تدريب مسبق، مقارنةً بأساليب أخرى عالية الأداء. يمكن الوصول إلى الكود عبر: https://github.com/soberguo/HOIGen