SOLQ: تجزئة الكائنات من خلال تعلّم الاستفسارات

في هذه الورقة، نقترح إطارًا متكاملًا من الطرف إلى الطرف لتصنيف المثيلات. استنادًا إلى نموذج DETR الذي تم تقديمه حديثًا [1]، فإن طريقتنا، المُسمّاة SOLQ، تقوم بفصل الكائنات من خلال تعلّم استفسارات موحدة. في SOLQ، يمثل كل استفسار كائنًا واحدًا ويتضمن تمثيلات متعددة: الفئة، الموقع، والقناع. تقوم الاستفسارات الخاصة بالكائنات المُتعلّمة بإجراء التصنيف، وانحدار الصندوق، وترميز القناع في آنٍ واحد، وذلك بأسلوب متجهي موحد. أثناء مرحلة التدريب، يتم التحكم في المتجهات القناعية المُشفّرة من خلال تشفير ضغط القناع المكاني الأصلي. وفي مرحلة الاستنتاج، يمكن تحويل المتجهات القناعية المنتجة مباشرة إلى قناع مكاني باستخدام العملية العكسية لتشفير الضغط. تُظهر النتائج التجريبية أن SOLQ تحقق أداءً من الدرجة الأولى، وتتفوّق على معظم الطرق الحالية. علاوةً على ذلك، يمكن لتعلم مشترك للتمثيل المتجانس للاستفسار أن يحسّن بشكل كبير أداء الكشف في نموذج DETR. نأمل أن تُشكّل SOLQ أساسًا قويًا لتصنيف المثيلات المستند إلى مُحول Transformer. يُمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/megvii-research/SOLQ.