HyperAIHyperAI
منذ 3 أشهر

HOICLIP: نقل المعرفة الفعّال للكشف عن التفاعل البشري-الجسم باستخدام نماذج الرؤية واللغة

Shan Ning, Longtian Qiu, Yongfei Liu, Xuming He
HOICLIP: نقل المعرفة الفعّال للكشف عن التفاعل البشري-الجسم باستخدام نماذج الرؤية واللغة
الملخص

تهدف كشف تفاعل الإنسان مع الكائن (HOI) إلى تحديد أزواج الإنسان-الكائن وتحديد تفاعلاتهم. في الآونة الأخيرة، أظهرت التدريب المتناقض بين اللغة والصورة (CLIP) إمكانات كبيرة في توفير معرفة مسبقة للتنبؤ بتفاعلات HOI من خلال نقل المعرفة. ومع ذلك، فإن هذه الأساليب تعتمد غالبًا على بيانات تدريب كبيرة الحجم، وتُعاني من أداء ضعيف في السيناريوهات القليلة/الصفرية للعينات. في هذه الورقة، نقترح إطارًا جديدًا لكشف تفاعل الإنسان مع الكائن، يُستخرج فيه المعرفة المسبقة بشكل فعّال من CLIP ويحقق تعميمًا أفضل. على وجه التحديد، نُقدّم أولًا مُفكّك تفاعل جديد يستخرج مناطق معلوماتية من خريطة الميزات البصرية لـ CLIP باستخدام آلية انتباه متقاطع، ثم تُدمج هذه المناطق مع هيكل الكشف الأساسي من خلال كتلة تكامل المعرفة، مما يُحسّن دقة اكتشاف أزواج الإنسان-الكائن. بالإضافة إلى ذلك، نستفيد من المعرفة المسبقة الموجودة في مُشفّر النص في CLIP لبناء فئة تصنيفية عن طريق تضمين وصفات تفاعلات HOI. ولتمييز التفاعلات الدقيقة، نُنشئ فئة تصنيف فعلية من بيانات التدريب باستخدام حسابات بصرية معنوية، ونُضيف مُعدّل تمثيل فعلي خفيف الوزن. علاوةً على ذلك، نُقدّم تحسينًا بدون تدريب للاستفادة من التنبؤات الشاملة لتفاعلات HOI من CLIP. أظهرت التجارب الواسعة أن طريقةنا تتفوّق على أحدث الطرق في مختلف الإعدادات، مثل الزيادة بنسبة 4.04 نقطة في mAP على مجموعة HICO-Det. يمكن الوصول إلى الشيفرة المصدرية عبر الرابط: https://github.com/Artanic30/HOICLIP.