HyperAIHyperAI
منذ 17 أيام

بي-إف-فورمر: مُقدِّم تقدير الوضعية

Paschalis Panteleris, Antonis Argyros
بي-إف-فورمر: مُقدِّم تقدير الوضعية
الملخص

أُظهرت أن معمارية نموذج الرؤية المتغيرة (Vision Transformer) تعمل بكفاءة عالية في مهام تصنيف الصور. تعتمد الجهود المبذولة لحل مهام الرؤية الأكثر تعقيدًا باستخدام النماذج المتغيرة على هياكل تلافيفية (CNN) لاستخراج الميزات. في هذا البحث، نستعرض استخدام معمارية نموذج متغير صرف (أي بدون استخدام هيكل تلافيفي) لمشكلة تقدير وضعية الجسم ثنائي الأبعاد. قمنا بتقييم نوعين من معماريات ViT على مجموعة بيانات COCO، ونُظهر أن استخدام معمارية نموذج متغير من نوع مشفر-فكك (encoder-decoder) يؤدي إلى نتائج من الدرجة الأولى (state-of-the-art) في هذه المشكلة.

بي-إف-فورمر: مُقدِّم تقدير الوضعية | أحدث الأوراق البحثية | HyperAI