HyperAIHyperAI
منذ 11 أيام

HOTR: اكتشاف التفاعل البشري-الكائن من البداية إلى النهاية باستخدام المحولات

Bumsoo Kim, Junhyun Lee, Jaewoo Kang, Eun-Sol Kim, Hyunwoo J. Kim
HOTR: اكتشاف التفاعل البشري-الكائن من البداية إلى النهاية باستخدام المحولات
الملخص

كشف تفاعل الإنسان مع الكائن (HOI) هو مهمة تتضمن تحديد "مجموعة من التفاعلات" في صورة، وتشمل: أولًا، تحديد موقع الطرف المُتفاعل (أي الإنسان) والطرف المُتفاعل معه (أي الكائن)، وثانيًا، تصنيف علامات التفاعل. اعتمدت معظم الطرق الحالية على معالجة هذه المهمة بشكل غير مباشر من خلال كشف كائنات البشر والكائنات، ثم استنتاج كل زوج من الكائنات المكتشفة بشكل منفصل. في هذه الورقة، نقدّم إطارًا جديدًا يُعرف بـ HOTR، والذي يُنبِّئ مباشرة بـ "ثلاثيات" مكونة من <إنسان، كائن، تفاعل> من صورة واحدة، باستخدام بنية مُشفّر-مُفكّك قائمة على نموذج المحولات (Transformer). من خلال التنبؤ بالمجموعة، يتمكّن هذا الأسلوب من استغلال العلاقات الدلالية المتأصلة في الصورة بكفاءة، دون الحاجة إلى معالجة ما بعدية مكلفة زمنيًا، وهي المشكلة الرئيسية التي تعاني منها الطرق الحالية. ويُحقّق الخوارزمية المقترحة أداءً مُتقدمًا جدًا (State-of-the-art) في بُنَى تقييم HOI، مع زمن استنتاج أقل من 1 مللي ثانية بعد كشف الكائنات.

HOTR: اكتشاف التفاعل البشري-الكائن من البداية إلى النهاية باستخدام المحولات | أحدث الأوراق البحثية | HyperAI