Command Palette
Search for a command to run...
WiLoR: الاستدلال والتركيب ثلاثي الأبعاد لليد من الطرف إلى الطرف في البيئات الطبيعية
WiLoR: الاستدلال والتركيب ثلاثي الأبعاد لليد من الطرف إلى الطرف في البيئات الطبيعية
Potamias Rolandos Alexandros Zhang Jinglei Deng Jiankang Zafeiriou Stefanos
الملخص
في السنوات الأخيرة، لاقت أساليب تقدير وضع اليد الثلاثية الأبعاد اهتمامًا كبيرًا بفضل تطبيقاتها الواسعة في التفاعل بين الإنسان والحاسوب، والواقع الافتراضي، والروبوتات. وعلى النقيض من ذلك، توجد فجوة بارزة في خطوط معالجة اكتشاف اليد، مما يفرض تحديات كبيرة في بناء أنظمة إعادة بناء يد متعددة فعالة في البيئات الواقعية. في هذه الدراسة، نقدم نموذجًا قائمًا على البيانات لإنجاز إعادة بناء يد متعددة بكفاءة في البيئات الطبيعية. يتكون النموذج المُقترح من مكونين: شبكة لتحديد موقع اليد باستخدام التحويلات الكاملة في الزمن الحقيقي، ونموذج ثلاثي الأبعاد لإعادة بناء اليد يعتمد على نموذج المُحول (Transformer) عالي الدقة. وللتغلب على قيود الأساليب السابقة وبناء شبكة كشف قوية ومستقرة، نقدّم مجموعة بيانات كبيرة الحجم تتضمن أكثر من 2 مليون صورة يد من البيئات الواقعية، وتتميز بتنوع في ظروف الإضاءة والسطوع والانسداد. ويتفوّق نهجنا على الأساليب السابقة من حيث الكفاءة والدقة على معايير شائعة في المجال ثنائي وثلاثي الأبعاد. وأخيرًا، نُظهر فعالية النموذج في تحقيق تتبع ثلاثي الأبعاد سلس لليد من مقاطع فيديو مفردة (من كاميرا واحدة)، دون استخدام أي عناصر زمنية. يمكن الوصول إلى الكود والنماذج ومجموعة البيانات من خلال الرابط التالي: https://rolpotamias.github.io/WiLoR.