HyperAIHyperAI
منذ 11 أيام

PolyFormer: التمييز الصوتي للصورة كتوليد متتالي للأضلاع

Jiang Liu, Hui Ding, Zhaowei Cai, Yuting Zhang, Ravi Kumar Satzoda, Vijay Mahadevan, R. Manmatha
PolyFormer: التمييز الصوتي للصورة كتوليد متتالي للأضلاع
الملخص

في هذه الدراسة، يتم صياغة مشكلة التجزئة المرجعية للصورة على شكل توليد متتالي للأشكال الرباعية، بدلاً من التنبؤ المباشر بقناع التجزئة على مستوى البكسل. ويمكن تحويل المضلعات المتنبأ بها لاحقًا إلى قناع تجزئة. ويُمكن تحقيق ذلك من خلال إطار عمل جديد يُدعى "Transformer المضلعات" (PolyFormer)، الذي يستقبل تسلسلًا من قطع الصورة ورموز الاستعلام النصي كمدخلات، ويُنتج تسلسلًا من رؤوس المضلعات بشكل تلقائي (autoregressively). ولتحقيق دقة أكبر في التحديد الهندسي، نقترح مُفكّكًا مبنيًا على الانحدار، يتنبأ بالإحداثيات العائمة الدقيقة مباشرةً، دون أي خطأ في التكميم الإحداثي. وفي التجارب، تفوق PolyFormer على التقنيات السابقة بشكل واضح، حيث بلغت التحسينات المطلقة 5.40% و4.52% على مجموعتي بيانات RefCOCO+ وRefCOCOg الصعبتين. كما أظهر أداءً قويًا في التعميم عند تقييمه على مهمة التجزئة المرجعية في الفيديو دون تعديل دقيق (fine-tuning)، حيث حقق أداءً تنافسيًا بنسبة 61.5% في مقياس J&F على مجموعة بيانات Ref-DAVIS17.

PolyFormer: التمييز الصوتي للصورة كتوليد متتالي للأضلاع | أحدث الأوراق البحثية | HyperAI