HyperAIHyperAI

Command Palette

Search for a command to run...

PolyFormer: التمييز الصوتي للصورة كتوليد متتالي للأضلاع

Jiang Liu Hui Ding Zhaowei Cai Yuting Zhang Ravi Kumar Satzoda Vijay Mahadevan R. Manmatha

الملخص

في هذه الدراسة، يتم صياغة مشكلة التجزئة المرجعية للصورة على شكل توليد متتالي للأشكال الرباعية، بدلاً من التنبؤ المباشر بقناع التجزئة على مستوى البكسل. ويمكن تحويل المضلعات المتنبأ بها لاحقًا إلى قناع تجزئة. ويُمكن تحقيق ذلك من خلال إطار عمل جديد يُدعى "Transformer المضلعات" (PolyFormer)، الذي يستقبل تسلسلًا من قطع الصورة ورموز الاستعلام النصي كمدخلات، ويُنتج تسلسلًا من رؤوس المضلعات بشكل تلقائي (autoregressively). ولتحقيق دقة أكبر في التحديد الهندسي، نقترح مُفكّكًا مبنيًا على الانحدار، يتنبأ بالإحداثيات العائمة الدقيقة مباشرةً، دون أي خطأ في التكميم الإحداثي. وفي التجارب، تفوق PolyFormer على التقنيات السابقة بشكل واضح، حيث بلغت التحسينات المطلقة 5.40% و4.52% على مجموعتي بيانات RefCOCO+ وRefCOCOg الصعبتين. كما أظهر أداءً قويًا في التعميم عند تقييمه على مهمة التجزئة المرجعية في الفيديو دون تعديل دقيق (fine-tuning)، حيث حقق أداءً تنافسيًا بنسبة 61.5% في مقياس J&F على مجموعة بيانات Ref-DAVIS17.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
PolyFormer: التمييز الصوتي للصورة كتوليد متتالي للأضلاع | مستندات | HyperAI