HyperAIHyperAI
منذ 2 أشهر

الشبكة العصبية المتحولة الثنائية المتتابعة للكشف الدقيق عن معالم الوجه

Dang, Ziqiang ; Li, Jianfang ; Liu, Lin
الشبكة العصبية المتحولة الثنائية المتتابعة للكشف الدقيق عن معالم الوجه
الملخص

اكتشاف معالم الوجه هو مشكلة أساسية في رؤية الحاسوب لها تطبيقات عديدة لاحقة. يقدم هذا البحث محددًا جديدًا لمعالم الوجه يستند إلى محولات الرؤية، ويتألف من تصميمين فريدَين: محول الرؤية المزدوج (D-ViT) وروابط القفز الطويلة (LSC). استنادًا إلى الملاحظة أن بُعد القناة في خرائط الميزات يمثل بشكل أساسي القواعد الخطية لمساحة الخريطة الحرارية، نقترح تعلم العلاقات بين هذه القواعد الخطية لنمذجة العلاقات الهندسية الذاتية بين المعالم عبر محول القناة المنقسم (Channel-split ViT). نقوم بدمج هذا المحول المنقسم للقناة في المحول القياسي للرؤية (أي، محول الفضاء المنقسم Spatial-split ViT)، مما يشكل محول الرؤية المزدوج لدينا ليكون الكتل التنبؤية. كما نقترح استخدام روابط القفز الطويلة لنقل ميزات الصورة من المستوى الأدنى إلى جميع الكتل التنبؤية، مما يمنع فقدان المعلومات المفيدة بسبب الإشراف الوسيط. تم إجراء تجارب واسعة لتقييم أداء مقترحنا على المقاييس الشائعة الاستخدام، وهي WFLW وCOFW و300W، مما أظهر أن نموذجنا يتفوق على أفضل النماذج السابقة (SOTAs) في جميع الثلاث مقاييس.

الشبكة العصبية المتحولة الثنائية المتتابعة للكشف الدقيق عن معالم الوجه | أحدث الأوراق البحثية | HyperAI