HyperAIHyperAI
منذ 17 أيام

ConsNet: تعلّم الرسم البياني للاتساق لاكتشاف التفاعل البشري-الكائن بدون تدريب مسبق

Ye Liu, Junsong Yuan, Chang Wen Chen
ConsNet: تعلّم الرسم البياني للاتساق لاكتشاف التفاعل البشري-الكائن بدون تدريب مسبق
الملخص

ننظر إلى مشكلة كشف التفاعل بين الإنسان والجسم (HOI)، والتي تهدف إلى تحديد وتحديد هوية حالات التفاعل بين الإنسان والجسم على شكل <إنسان، فعل، جسم> في الصور. تعامل معظم الدراسات الحالية التفاعلات بين الإنسان والجسم كفئات تفاعل منفصلة، وبالتالي لا يمكنها التعامل مع مشكلة التوزيع الطويل الذيل (long-tail distribution) ومشكلة التعدد المعاني (polysemy) في تسميات الأفعال. نحن نرى أن التماسك على مستويات متعددة بين الأجسام، والأفعال، والتفاعلات يُعد مؤشراً قوياً لتكوين تمثيلات معنوية للتفاعلات النادرة أو غير المسبوقة. بالاعتماد على الخصائص التركيبية والعلاقاتية المميزة لتسميات HOI، نقترح نموذجاً يُسمى ConsNet، وهو إطار معرفي يُدرك بشكل صريح العلاقات بين الأجسام، والأفعال، والتفاعلات في رسم بياني غير موجه يُعرف بـ "الرسم البياني للتماسك"، ويستفيد من شبكات الانتباه الرسومية (GATs) لنقل المعرفة بين فئات HOI وعناصرها المكونة. يأخذ نموذجنا كميات مميزة بصرية للزوجين المحتملين من البشر والأجسام، وتمثيلات كلمات لتسميات HOI كمدخلات، ويُحوّلها إلى فضاء تجميعي بصري-معنوي، ثم يحصل على نتائج الكشف من خلال قياس درجة التشابه بينها. قمنا بتقييم نموذجنا بشكل واسع على مجموعتي بيانات صعبتين هما V-COCO وHICO-DET، وأظهرت النتائج أن منهجنا يتفوق على أحدث التقنيات في كل من الإعدادات المدعومة بالكامل (fully-supervised) والصفرية المعرفة (zero-shot). يمكن الوصول إلى الكود عبر الرابط: https://github.com/yeliudev/ConsNet.