HyperAIHyperAI
منذ 2 أشهر

واحدفورمر: مُتغيِّر واحد لتحكم في تقسيم الصور الشامل

Jitesh Jain; Jiachen Li; MangTik Chiu; Ali Hassani; Nikita Orlov; Humphrey Shi
واحدفورمر: مُتغيِّر واحد لتحكم في تقسيم الصور الشامل
الملخص

التمييز الشامل للصور ليس مفهومًا جديدًا. خلال العقود الماضية، تضمنت المحاولات السابقة لتوحيد التمييز الصوري تحليل المشاهد والتمييز البانورامي، وكذلك، وبشكل أكثر حديثًا، هياكل بانورامية جديدة. ومع ذلك، فإن هذه الهياكل البانورامية لا توحّد حقًا التمييز الصوري لأنها تحتاج إلى التدريب بشكل منفصل على التمييز الدلالي أو التمييز النسبي أو التمييز البانورامي لتحقيق أفضل الأداء. المثالي هو أن يتم تدريب إطار عمل شامل مرة واحدة فقط ويحقق أداءً رائدًا في جميع المهام الثلاثة للتمييز الصوري. بهدف تحقيق هذا، نقترح OneFormer، وهو إطار عمل شامل للتمييز الصوري يجمع بين المهام باستخدام تصميم تدريبي متعدد المهام يقوم بالتدريب مرة واحدة. أولاً، نقترح استراتيجية تدريب مشتركة مع شروط مهمة تتيح إجراء التدريب على الحقائق الأرضية لكل مجال (التمييز الدلالي والتمييز النسبي والتمييز البانورامي) ضمن عملية تدريبية متعددة المهام واحدة. ثانيًا، نقدم رمز مهمة لجعل نموذجنا ديناميكيًا للمهمة ودعم التدريب والاستنتاج المتعدد المهام. ثالثًا، نقترح استخدام خسارة مقارنة الاستعلامات النصية أثناء التدريب لتعزيز الفوارق بين المهام والفوارق بين الفئات بشكل أفضل. يُذكر أن نموذج OneFormer الواحد لدينا يتفوق على نماذج Mask2Former المتخصصة في جميع المهام الثلاثة للتمييز الصوري على مجموعات البيانات ADE20k وCityScapes وCOCO، رغم أن الأخيرة تم تدريبها بشكل منفصل على كل من الثلاثة مهام باستخدام ثلاثة أضعاف الموارد. عند استخدام الهياكل الخلفية الجديدة ConvNeXt وDiNAT، نلاحظ تحسنًا أكبر في الأداء. نعتقد أن OneFormer هو خطوة كبيرة نحو جعل التمييز الصوري أكثر شمولية وسهولة الوصول إليه. لدعم البحث المستقبلي، قمنا بتوفير كودنا والنماذج الخاصة بنا كمصدر مفتوح على الرابط: https://github.com/SHI-Labs/OneFormer

واحدفورمر: مُتغيِّر واحد لتحكم في تقسيم الصور الشامل | أحدث الأوراق البحثية | HyperAI