Point Transformer V3: أبسط، أسرع، أقوى

هذا البحث لا يهدف إلى تحقيق ابتكار داخل آلية الانتباه. بدلًا من ذلك، يركّز على التغلب على التناقضات الحالية بين الدقة والكفاءة في سياق معالجة سحابات النقاط، مستفيدًا من قوة التوسع. مستلهمًا من التطورات الحديثة في التعلم التمثيلي على نطاق 3D الكبير، ندرك أن أداء النموذج يتأثر أكثر بالحجم من التصميم المعقد. ولهذا، نقدّم Point Transformer V3 (PTv3)، الذي يُعطي الأولوية للبساطة والكفاءة على دقة آليات معينة لا تؤثر بشكل كبير على الأداء العام بعد التوسع، مثل استبدال عملية البحث الدقيقة عن الجيران باستخدام KNN بخريطة جيران مُسلسلة فعّالة لسحابات النقاط المرتبة وفق أنماط محددة. يمكّن هذا المبدأ من توسيع النموذج بشكل كبير، حيث يتم توسيع مجال الاستقبال من 16 نقطة إلى 1024 نقطة مع الحفاظ على الكفاءة (زيادة بنسبة 3 أضعاف في سرعة المعالجة وتحسين بنسبة 10 أضعاف في كفاءة الذاكرة مقارنةً بالإصدار السابق، PTv2). وحقق PTv3 نتائج رائدة على أكثر من 20 مهمة تطبيقية تشمل سيناريوهات داخلية وخارجية. كما تم تحسين الأداء بشكل إضافي من خلال التدريب المشترك على عدة مجموعات بيانات، مما دفع النتائج إلى مستوى أعلى.