VoxelKP: هي بنية شبكة تعتمد على البكسلات لتقدير نقاط المفتاح البشرية في بيانات ليدار

نقدم \textit{VoxelKP}، وهي بنية شبكية جديدة بالكامل ذات كثافة منخفضة، مُصممة خصيصًا لتقدير نقاط المفتاح البشرية في بيانات ليدار. التحدي الرئيسي يتمثل في أن الكائنات تكون موزعة بشكل متفرّق في الفضاء ثلاثي الأبعاد، بينما يتطلب كشف نقاط المفتاح البشرية معلومات محلية مفصلة في أي مكان توجد فيه البشر. في هذا البحث، نقترح أربع أفكار جديدة. أولاً، نقترح استخدام نوى مختارة متعددة المقياس لالتقاط السياق متعدد المقياس. ثانيًا، نُدخل انتباه الصندوق المتفرّق (sparse box-attention) لتركيز التعلم على العلاقات المكانية بين نقاط المفتاح داخل كل مثيل بشري. ثالثًا، نُدمج ترميزًا مكانيًا للاستفادة من الإحداثيات الثلاثية الأبعاد المطلقة عند تحويل المكعبات (voxels) ثلاثية الأبعاد إلى تمثيل ثنائي الأبعاد يُمثل منظور الطيور (bird's eye view). رابعًا، نقترح تعلم الميزات الهجينة لدمج معالجة الميزات الخاصة بكل مكعب مع التباين المتفرّق (sparse convolution). قمنا بتقييم طريقتنا على مجموعة بيانات Waymo، وحققنا تحسنًا بنسبة $27\%$ في مقياس MPJPE مقارنة بالحالة المتقدمة الحالية \textit{HUM3DIL}، التي تم تدريبها على نفس البيانات، وبنسبة $12\%$ مقارنة بالحالة المتقدمة الحالية \textit{GC-KPL} التي تم تدريبها مسبقًا على مجموعة بيانات أكبر بـ$25$ مرة. إلى أقصى معرفة لدينا، فإن \textit{VoxelKP} هي أول شبكة واحدة المرحلة، بالكامل متفرقة، مصممة خصيصًا لمعالجة المهمة الصعبة لتقدير نقاط المفتاح ثلاثية الأبعاد من بيانات ليدار، وتحقق أداءً يُعد من أفضل الأداءات الحالية. يمكن الوصول إلى الشفرة الخاصة بنا عبر الرابط: \url{https://github.com/shijianjian/VoxelKP}.