HyperAIHyperAI
منذ 4 أشهر

ReSeg: نموذج مبني على الشبكات العصبية المتكررة للتقسيم الدلالي

Francesco Visin; Marco Ciccone; Adriana Romero; Kyle Kastner; Kyunghyun Cho; Yoshua Bengio; Matteo Matteucci; Aaron Courville
ReSeg: نموذج مبني على الشبكات العصبية المتكررة للتقسيم الدلالي
الملخص

نقترح هندسة تنبؤ منظمة تستفيد من الخصائص العامة المحلية المستخرجة بواسطة شبكات العصب المتكررة (CNN) وقدرة شبكات العصب المتكررة (RNN) على استرجاع الارتباطات البعيدة. تُعرف الهندسة المقترحة باسم ReSeg، وهي تعتمد على نموذج ReNet المقدم حديثًا لتصنيف الصور. نقوم بتعديل وتوسيع هذا النموذج لأداء مهمة أكثر تحديًا وهي تقسيم الدلالة. يتكون كل طبقة من طبقات ReNet من أربع شبكات عصب متكررة تمسح الصورة أفقيًا وعموديًا في كلا الاتجاهين، مشفّرة الأجزاء أو التنشيطات وتوفير المعلومات العالمية ذات الصلة. بالإضافة إلى ذلك، يتم وضع طبقات ReNet فوق طبقات التلافيف المدربة مسبقًا، مما يتيح الاستفادة من الخصائص المحلية العامة. تتبع طبقات رفع الدقة طبقات ReNet لاستعادة دقة الصورة الأصلية في التوقعات النهائية. تعتبر الهندسة المقترحة ReSeg فعّالة ومرونة ومناسبة لمجموعة متنوعة من مهام تقسيم الدلالة. نقيم ReSeg على عدة قواعد بيانات شائعة لتقسيم الدلالة: خيل وييزمان (Weizmann Horse)، زهرة أكسفورد (Oxford Flower)، وكامفيد (CamVid)؛ حيث حققنا أداءً يتفوق على أفضل ما تم تحقيقه سابقًا. تظهر النتائج أن ReSeg يمكن أن تعمل كهندسة مناسبة لمهام تقسيم الدلالة، وقد يكون لها تطبيقات إضافية في مشاكل التنبؤ المنظمة الأخرى. يمكن الحصول على الكود المصدر ومعاملات النموذج على https://github.com/fvisin/reseg.