HyperAIHyperAI

Command Palette

Search for a command to run...

HOICLIP: نقل المعرفة الفعّال للكشف عن التفاعل البشري-الجسم باستخدام نماذج الرؤية واللغة

Shan Ning Longtian Qiu Yongfei Liu Xuming He

الملخص

تهدف كشف تفاعل الإنسان مع الكائن (HOI) إلى تحديد أزواج الإنسان-الكائن وتحديد تفاعلاتهم. في الآونة الأخيرة، أظهرت التدريب المتناقض بين اللغة والصورة (CLIP) إمكانات كبيرة في توفير معرفة مسبقة للتنبؤ بتفاعلات HOI من خلال نقل المعرفة. ومع ذلك، فإن هذه الأساليب تعتمد غالبًا على بيانات تدريب كبيرة الحجم، وتُعاني من أداء ضعيف في السيناريوهات القليلة/الصفرية للعينات. في هذه الورقة، نقترح إطارًا جديدًا لكشف تفاعل الإنسان مع الكائن، يُستخرج فيه المعرفة المسبقة بشكل فعّال من CLIP ويحقق تعميمًا أفضل. على وجه التحديد، نُقدّم أولًا مُفكّك تفاعل جديد يستخرج مناطق معلوماتية من خريطة الميزات البصرية لـ CLIP باستخدام آلية انتباه متقاطع، ثم تُدمج هذه المناطق مع هيكل الكشف الأساسي من خلال كتلة تكامل المعرفة، مما يُحسّن دقة اكتشاف أزواج الإنسان-الكائن. بالإضافة إلى ذلك، نستفيد من المعرفة المسبقة الموجودة في مُشفّر النص في CLIP لبناء فئة تصنيفية عن طريق تضمين وصفات تفاعلات HOI. ولتمييز التفاعلات الدقيقة، نُنشئ فئة تصنيف فعلية من بيانات التدريب باستخدام حسابات بصرية معنوية، ونُضيف مُعدّل تمثيل فعلي خفيف الوزن. علاوةً على ذلك، نُقدّم تحسينًا بدون تدريب للاستفادة من التنبؤات الشاملة لتفاعلات HOI من CLIP. أظهرت التجارب الواسعة أن طريقةنا تتفوّق على أحدث الطرق في مختلف الإعدادات، مثل الزيادة بنسبة 4.04 نقطة في mAP على مجموعة HICO-Det. يمكن الوصول إلى الشيفرة المصدرية عبر الرابط: https://github.com/Artanic30/HOICLIP.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp