Transformer خالٍ من الانتباه بالقناع للفصل الحادثي ثلاثي الأبعاد

في الآونة الأخيرة، سادت الأساليب القائمة على المحولات (transformer) في تجزئة المثيلات ثلاثية الأبعاد، حيث تُستخدم غالبًا الانتباه إلى القناع (mask attention). وبشكل خاص، يتم توجيه استفسارات الكائنات بواسطة قناع المثيلات الأولية في الانتباه المتبادل الأول، ثم يتم تحسينها تكراريًا بطريقة مشابهة. ومع ذلك، لاحظنا أن نموذج الانتباه إلى القناع يؤدي عادةً إلى تقارب بطيء نظرًا لضعف دقة الاسترجاع (low-recall) في قناع المثيلات الأولية. لذلك، قررنا التخلي عن تصميم الانتباه إلى القناع، والتحول إلى مهمة بديلة تقوم على استرجاع المركز (center regression). من خلال استرجاع المركز، تمكنا من التغلب بشكل فعّال على مشكلة الدقة المنخفضة في الاسترجاع، ونفّذنا الانتباه المتبادل من خلال إدخال تمهيد مكاني (positional prior). لتحقيق هذا الهدف، طوّرنا سلسلة من التصاميم التي تأخذ بعين الاعتبار الموقع. أولاً، تعلمنا توزيعًا فضائيًا لمواقع ثلاثية الأبعاد كاستفسارات موقع أولية. حيث تمتد هذه الاستفسارات بكثافة عبر الفضاء ثلاثي الأبعاد، مما يمكّنها من اكتشاف الكائنات في المشهد بفعالية عالية ودقة استرجاع مرتفعة. علاوةً على ذلك، قمنا بتمثيل الترميز المكاني النسبي (relative position encoding) للانتباه المتبادل، ووضعنا آلية تحسين تكراري لتحسين دقة استفسارات الموقع. أظهرت التجارب أن منهجنا يحقق تقاربًا أسرع بـ 4 أضعاف مقارنة بالأساليب الحالية، ويُحدث حالة جديدة من التميز (state of the art) في معيار تجزئة المثيلات ثلاثية الأبعاد على بيانات ScanNetv2، كما يُظهر أداءً متفوّقًا عبر مجموعة متنوعة من المجموعات البيانات. يمكن الوصول إلى الكود والنماذج عبر الرابط التالي: https://github.com/dvlab-research/Mask-Attention-Free-Transformer.