HyperAIHyperAI
منذ 16 أيام

استكشاف السياق البصري للصفات في كشف التفاعل البشري-الكائن

Frederic Z. Zhang, Yuhui Yuan, Dylan Campbell, Zhuoyao Zhong, Stephen Gould
استكشاف السياق البصري للصفات في كشف التفاعل البشري-الكائن
الملخص

في الآونة الأخيرة، برز إطار DETR كنهج مهيمن في أبحاث التفاعل بين الإنسان والجسم (HOI). وبشكل خاص، يُعدّ مُكتشفو HOI القائمون على مُحولات ثنائي المرحلة من بين أكثر النماذج أداءً وكفاءة في التدريب. ومع ذلك، فإن هذه النماذج غالبًا ما تقوم بتصنيف التفاعلات على أساس ميزات الجسم التي تفتقر إلى معلومات سياقية دقيقة، وتجاهلت معلومات الوضعية والاتجاهات في ميادين الميزات البصرية المتعلقة بتحديد هوية الجسم وحدود مربعات الحدود. وهذا يعيق بطبيعته تمييز التفاعلات المعقدة أو الغامضة. في هذا العمل، ندرس هذه المشكلات من خلال التصوير البصري والتجارب المصممة بعناية. وعليه، نستكشف أفضل الطرق لإعادة إدخال ميزات الصورة عبر الانتباه المتقاطع. وبفضل تصميم مُحسّن للاستفسارات، واستكشاف واسع للمفاتيح والقيم، بالإضافة إلى تضمينات موضعية للزوجات المربعة كمرشد فضائي، يتفوق نموذجنا الذي يمتلك سياقًا بصريًا مُحسّنًا لل predicate (PViC) على أحدث الطرق في معايير HICO-DET و V-COCO، مع الحفاظ على تكلفة تدريب منخفضة.

استكشاف السياق البصري للصفات في كشف التفاعل البشري-الكائن | أحدث الأوراق البحثية | HyperAI