HyperAIHyperAI

Command Palette

Search for a command to run...

QPIC: اكتشاف التفاعلات الثنائية بين الإنسان والكائنات بناءً على الاستعلامات مع معلومات سياقية شاملة للصورة

Masato Tamura Hiroki Ohashi Tomoaki Yoshinaga

الملخص

نقترح طريقة بسيطة وفطرية ومع ذلك قوية للكشف عن تفاعلات الإنسان مع الأشياء (Human-Object Interaction - HOI). تتميز هذه التفاعلات بالتنوع الكبير في التوزيع المكاني داخل الصورة، مما يجعل الطرق الحالية القائمة على الشبكات العصبية المت convoled (CNN) تواجه ثلاثة عيوب رئيسية؛ فهي لا تستطيع الاستفادة من الخصائص الشاملة للصورة بسبب خاصية المحلية في CNN، تعتمد على موقع محدد يُعرَّف يدويًا لتجميع الخصائص، وهو ما قد لا يغطي المناطق السياقية المهمة دائمًا، ولا يمكنها إلا أن تخلط بين خصائص الحالات المتعددة لتفاعلات الإنسان مع الأشياء إذا كانت هذه الحالات قريبة من بعضها البعض.للتغلب على هذه العيوب، نقترح مستخرج خصائص قائم على محول (Transformer)، حيث تقوم آلية الانتباه (Attention Mechanism) والكشف القائم على الاستعلامات (Query-based Detection) بأدوار مهمة. تعمل آلية الانتباه بشكل فعال في جمع المعلومات السياقية المهمة عبر كامل الصورة، بينما يمكن للاستعلامات التي نصممها بحيث يتم التقاط كل استعلام لأقصى حد زوج واحد من الإنسان والشيء، تجنب الخلط بين الخصائص من حالات متعددة. ينتج هذا المستخرج الخصائص القائم على المحول تمثيلات (Embeddings) فعالة للغاية، مما يجعل الرؤوس الكاشفة اللاحقة قد تكون بسيطة وفطرية نسبيًا. كشفت التحليلات الواسعة أن الطريقة المقترحة تنجح في استخراج الخصائص السياقية المهمة، وبالتالي فإنها تتفوق على الطرق الحالية بمargins كبيرة (5.37 mAP على HICO-DET و 5.7 mAP على V-COCO). يمكن الحصول على الكود المصدر من الرابط التالي: \href\href{https://github.com/hitachi-rd-cv/qpic}{\text{هذا الرابط https}}\href.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp