HyperAIHyperAI

Command Palette

Search for a command to run...

تقسيم الكائن الشفاف في البيئة الطبيعية باستخدام المحول

Enze Xie Wenjia Wang Wenhai Wang Peize Sun Hang Xu Ding Liang Ping Luo

الملخص

تقدم هذه الدراسة مجموعة بيانات جديدة لتقسيم الأشياء الشفافة بدقة عالية، وتُسمى Trans10K-v2، والتي تمتد من Trans10K-v1، وهي أول مجموعة بيانات كبيرة الحجم لتقسيم الأشياء الشفافة. على عكس Trans10K-v1 التي تضم فقط فئتين محدودتين، تتميز المجموعة الجديدة بعدة مزايا جذابة. (1) تضم 11 فئة دقيقة من الأشياء الشفافة، وهي شائعة في البيئة المنزلية البشرية، مما يجعلها أكثر ملاءمة للتطبيقات الواقعية. (2) تفرض مجموعة Trans10K-v2 تحديات أكبر على الطرق المتقدمة الحالية لتقسيم الصور مقارنة بالإصدار السابق. بالإضافة إلى ذلك، تم اقتراح نموذج جديد لتقسيم الصور يعتمد على المحولات (transformer)، يُسمى Trans2Seg. أولاً، يوفر معالج المحولات (transformer encoder) في Trans2Seg مجال استقبال عالمي، مقارنةً بمجال الاستقبال المحلي الذي تقدمه الشبكات العصبية التلافيفية (CNN)، مما يُظهر مزايا واضحة مقارنةً بالبنية التقليدية القائمة على CNN فقط. ثانيًا، من خلال صياغة مسألة التقسيم الدلالي كمشكلة بحث في قاموس، قمنا بتصميم مجموعة من النماذج القابلة للتعلم كاستعلامات لمعالج المحولات (transformer decoder) في Trans2Seg، حيث يتعلم كل نموذج إحصائيات الفئة المقابلة له في المجموعة الكاملة. وقد تم اختبار أكثر من 20 طريقة حديثة لتقسيم الصور الدلالي، وأظهرت النتائج أن Trans2Seg تتفوق بشكل كبير على جميع الطرق القائمة على CNN، مما يُبرز القدرة الواعدة للخوارزمية المقترحة في حل مشكلة تقسيم الأشياء الشفافة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp