HyperAIHyperAI

Command Palette

Search for a command to run...

ماتي فورمر: تقطيع صور مبني على محول باستخدام رموز مسبقة

GyuTae Park SungJoon Son JaeYoung Yoo SeHo Kim Nojun Kwak

الملخص

في هذه الورقة، نقترح نموذجًا لاستخلاص الصورة (image matting) يعتمد على المحولات (transformer) يُسمى MatteFormer، والذي يستغل بالكامل معلومات المصفوفة المُحددة (trimap) داخل كتلة المحول. يبدأ منهجنا بإدخال "رمز مُسبق" (prior-token)، وهو تمثيل عالمي لكل منطقة في المصفوفة المُحددة (مثل: الكائن الأمامي، الخلفية، والمنطقة غير المحددة). تُستخدم هذه الرموز المسبقة كأوليات عالمية، وتدخل في آلية الانتباه الذاتي (self-attention) في كل كتلة. تتكون كل مرحلة من المُشِّفر (encoder) من كتلة PAST (Prior-Attentive Swin Transformer)، وهي مبنية على كتلة Swin Transformer، لكنها تختلف في بعض الجوانب: 1) تحتوي على طبقة PA-WSA (Prior-Attentive Window Self-Attention) التي تقوم بالانتباه الذاتي ليس فقط مع الرموز المكانية (spatial-tokens)، بل أيضًا مع الرموز المسبقة. 2) تمتلك ذاكرة مسبقة (prior-memory) تُخزّن الرموز المسبقة تراكميًا من الكتل السابقة وتنقلها إلى الكتلة التالية. قمنا بتقييم نموذج MatteFormer على مجموعتي بيانات شائعة الاستخدام في استخلاص الصور: Composition-1k وDistinctions-646. أظهرت نتائج التجارب أن المنهج المقترح يحقق أداءً من الدرجة الأولى (state-of-the-art) بفارق كبير. يمكن الوصول إلى الكود الخاص بنا عبر الرابط التالي: https://github.com/webtoon/matteformer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp