DIRV: تصويت مناطق التفاعل الكثيفة للكشف عن التفاعل البشري-الكائن بشكل نهاية-إلى-نهاية

في السنوات الأخيرة، حققت كشف التفاعل بين الإنسان والجسم (HOI) تقدماً ملحوظاً. ومع ذلك، فإن الطرق الثنائية المراحل التقليدية تكون عادةً بطيئة في الاستدلال. من ناحية أخرى، تركز الطرق الأحادية المراحل الحالية بشكل رئيسي على مناطق الاتحاد الناتجة عن التفاعل، مما يُدخل معلومات بصرية غير ضرورية تُشكّل عوائق أمام كشف التفاعل بين الإنسان والجسم. ولحل المشكلات المذكورة أعلاه، نقترح في هذا البحث منهجية جديدة أحادية المراحل للكشف عن التفاعل بين الإنسان والجسم تُسمى DIRV، مبنية على مفهوم جديد يُعرف بـ "منطقة التفاعل" في سياق مشكلة HOI. على عكس الطرق السابقة، يركّز منهجنا على مناطق التفاعل المُعدّة بكثافة عبر مقاييس مختلفة لكل زوج إنسان-جسم، بهدف التقاط السمات البصرية الدقيقة التي تمثل العنصر الأساسي في التفاعل. علاوةً على ذلك، ولتعويض عيوب الكشف الناتجة عن استخدام منطقة تفاعل واحدة فقط، نقدّم استراتيجية تصويت جديدة تُستفيد بشكل كامل من مناطق التفاعل المتقاطعة، بدلًا من استخدام تقنية القمع غير الأقصى التقليدية (NMS). أظهرت التجارب الواسعة على معيارين شهيرين: V-COCO وHICO-DET، أن منهجنا يتفوق على أحدث الطرق المُتقدمة بشكل كبير، مع تحقيق أعلى سرعة في الاستدلال وأخف بنية شبكة. وقد حققنا مؤشر دقة متوسطة 56.1 mAP على معيار V-COCO دون الحاجة إلى إدخالات إضافية. يمكن الوصول إلى الكود المصدري للبحث عبر الرابط التالي: https://github.com/MVIG-SJTU/DIRV