HyperAIHyperAI
منذ 15 أيام

مُحَوِّل النقطة V2: انتباه المتجهات المجمعة والتجميع القائم على التقسيم

Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao
مُحَوِّل النقطة V2: انتباه المتجهات المجمعة والتجميع القائم على التقسيم
الملخص

بصفتها عملًا رائدًا يستكشف بنية المحولات (Transformer) لفهم السحابات النقطية ثلاثية الأبعاد، حققت نموذج Point Transformer نتائج مذهلة على عدة معايير تنافسية عالية. في هذا العمل، نحلل القيود الموجودة في Point Transformer ونُقدّم نموذجنا القوي والفعال، Point Transformer V2، مع تصميمات مبتكرة تتجاوز قيود الأبحاث السابقة. وبشكل خاص، نُقدّم أولًا انتباه المتجهات المجموعة (group vector attention)، الذي يُظهر كفاءة أعلى مقارنة بالإصدار السابق من انتباه المتجهات. وباستلهام المزايا المتمثلة في ترميز الأوزان القابلة للتعلم وانتباه الرؤوس المتعددة، نقدّم تنفيذًا فعّالًا للغاية لانتباه المتجهات المجموعة من خلال طبقة ترميز أوزان مُجمّعة مبتكرة. كما نعزّز معلومات الموضع في عملية الانتباه من خلال مضاعف ترميز موضع إضافي. علاوةً على ذلك، نصمم طرقًا جديدة وخفيفة الوزن للتجزئة القائمة على التجميع (partition-based pooling)، التي تُمكّن من تحسين التوافق المكاني وSampling أكثر كفاءة. أظهرت التجارب الواسعة أن نموذجنا يتفوّق على نسخته السابقة، ويحقق أفضل الأداء في عدة معايير صعبة لفهم السحابات النقطية ثلاثية الأبعاد، بما في ذلك تصنيف السحابات النقطية ثلاثية الأبعاد على ScanNet v2 وS3DIS، وتصنيف السحابات النقطية ثلاثية الأبعاد على ModelNet40. سيتم إتاحة الشفرة المصدرية لنموذجنا على الرابط: https://github.com/Gofinge/PointTransformerV2.

مُحَوِّل النقطة V2: انتباه المتجهات المجمعة والتجميع القائم على التقسيم | أحدث الأوراق البحثية | HyperAI