استكشاف التحويلة المُدركة للهيكل فوق اقتراحات التفاعل للكشف عن التفاعل البشري-الكائن

أثرت التقنيات الحديثة عالية الأداء للكشف عن التفاعل البشري-الكائن (HOI) بشكل كبير على مُكتشفات الكائنات المستندة إلى مُحول (Transformer)، مثل DETR. ومع ذلك، فإن معظم هذه التقنيات تقوم بتحويل استفسارات التفاعل المُعَمَّلة مباشرة إلى مجموعة من تنبؤات HOI من خلال مُحول بسيط بطريقة واحدة، مما يترك الهياكل البينية أو داخلية للتفاعل غير مستغلة بالكامل. في هذا العمل، نصمم مُكتشفًا جديدًا لـ HOI على نمط المُحول، يُدعى "مُحول واعٍ بالهيكل على اقتراحات التفاعل" (STIP)، للكشف عن التفاعل البشري-الكائن. يُفكّك هذا التصميم عملية التنبؤ بمجموعة HOI إلى مرحلتين متتاليتين: أولاً، يتم إنشاء اقتراحات تفاعل، ثم يليها تحويل اقتراحات التفاعل غير المُعَمَّلة إلى تنبؤات HOI باستخدام مُحول واعٍ بالهيكل. ويُحسّن مُحول واعٍ بالهيكل المُحول القياسي من خلال ترميز البنية الشاملة الدلالية بين اقتراحات التفاعل، بالإضافة إلى البنية المكانية المحلية للإنسان/الكائن داخل كل اقتراح تفاعل، بهدف تعزيز دقة التنبؤات بـ HOI. وقد أظهرت التجارب الواسعة التي أُجريت على معايير V-COCO وHICO-DET فعالية STIP، مع تحقيق نتائج متفوقة مقارنةً بأفضل تقنيات الكشف عن HOI الحالية. يُمكن الاطلاع على الشفرة المصدرية من خلال الرابط: \url{https://github.com/zyong812/STIP}.