HyperAIHyperAI
منذ 2 أشهر

بوليماكس: التنبؤ الكثيف العام باستخدام متحول القناع

Xuan Yang; Liangzhe Yuan; Kimberly Wilber; Astuti Sharma; Xiuye Gu; Siyuan Qiao; Stephanie Debats; Huisheng Wang; Hartwig Adam; Mikhail Sirotenko; Liang-Chieh Chen
بوليماكس: التنبؤ الكثيف العام باستخدام متحول القناع
الملخص

المهام التنبؤية الكثيفة، مثل التجزئة الدلالية، تقدير العمق، وتنبؤ الاتجاهات السطحية، يمكن صياغتها بسهولة كتصنيف لكل بكسل (مخرجات منفصلة) أو ترجيع (مخرجات مستمرة). وقد ظل هذا النموذج للتنبؤ بكل بكسل شائعًا بسبب انتشار الشبكات الإدراكية الكاملة. ومع ذلك، على حدود المهام التجزئة الحديثة، يشهد المجتمع تحولًا في النموذج من التنبؤ بكل بكسل إلى التنبؤ بالكتلة مع ظهور هياكل الترانسفورمر، وخاصةً ترانسفورمر الأقنعة (mask transformers)، والتي تتنبأ مباشرة بعلامة للأقنعة بدلاً من البكسل. رغم هذا التحول، لا تزال الأساليب المستندة إلى نموذج التنبؤ بكل بكسل تسود المعايير في المهام التنبؤية الكثيفة الأخرى التي تتطلب مخرجات مستمرة، مثل تقدير العمق والتنبؤ بالاتجاهات السطحية. مستوحين من نجاح DORN و AdaBins في تقدير العمق، الذي تم تحقيقه عن طريق تقسيم الفضاء المخرجي المستمر إلى قيم منفصلة، نقترح توسيع طريقة التنبؤ بالكتلة لتشمل المهام التنبؤية الكثيفة العامة. هذا يسمح لنا بتوحيد المهام التنبؤية الكثيفة باستخدام إطار عمل ترانسفورمر الأقنعة. بشكل ملحوظ، أظهر النموذج الناتج PolyMaX أداءً رائدًا في ثلاثة معايير من مجموعة بيانات NYUD-v2. نأمل أن يلهم تصميمنا البسيط والفعال المزيد من الأبحاث حول استغلال ترانسفورمر الأقنعة للمزيد من المهام التنبؤية الكثيفة. سيتم توفير الرمز والموديل.请注意,这里的人名和机构名称(如DORN, AdaBins, NYUD-v2)在阿拉伯语中通常保留其原始形式,以确保信息的准确性。