HyperAIHyperAI
منذ 3 أشهر

ما وراء اللوحات المحلية: الحفاظ على التفاعلات العالمية-ال locales من خلال تعزيز الانتباه الذاتي عبر ترميز سحابة النقاط ثلاثية الأبعاد

{X.X. Zhu, M.M. Fraz, S.A. Khan, M. Shahzad, M.Q. Khan}
ما وراء اللوحات المحلية: الحفاظ على التفاعلات العالمية-ال locales من خلال تعزيز الانتباه الذاتي عبر ترميز سحابة النقاط ثلاثية الأبعاد
الملخص

أظهرت المعمارية القائمة على Transformer أداءً مبهرًا مؤخرًا في مهام فهم السحابة النقطية المتنوعة، مثل تصنيف أشكال الأجسام ثلاثية الأبعاد والتقسيم الدلالي. ويرجع هذا بشكل خاص إلى آلية الانتباه الذاتي التي تمتلك القدرة على التقاط الاعتماديات على المدى الطويل. ومع ذلك، تقتصر الطرق الحالية على تشغيلها في لوحات محلية بسبب القيود التربيعية على الذاكرة. وهذا يعيق قدرتها على التعميم والقدرة على التوسع بسبب فقدان الطابع غير المحلي في الطبقات المبكرة. ولحل هذه المشكلة، نقترح معمارية Transformer قائمة على النوافذ، والتي تلتقط الاعتماديات على المدى الطويل مع جمع المعلومات داخل اللوحات المحلية. نفعل ذلك من خلال تفاعل كل نافذة مع مجموعة من رموز السحابة النقطية العالمية — وهي مجموعة تمثيلية من كامل المشهد — وتعزيز البنية الهندسية المحلية من خلال وصفة 3D Histogram of Oriented Gradients (HOG). من خلال سلسلة من التجارب على مهام التقسيم والتصنيف، نُظهر أن نموذجنا يتفوق على الحد الأقصى الحالي في تقسيم S3DIS الدلالي (+1.67% mIoU)، وتصنيف أجزاء ShapeNetPart (+1.03% mIoU للحالة الفردية)، كما يُظهر أداءً تنافسيًا في تصنيف الأجسام ثلاثية الأبعاد على ScanObjectNN. سيتم إتاحة الكود والنماذج المدربة للجمهور.