HyperAIHyperAI
منذ 17 أيام

ماتي فورمر: تقطيع صور مبني على محول باستخدام رموز مسبقة

GyuTae Park, SungJoon Son, JaeYoung Yoo, SeHo Kim, Nojun Kwak
ماتي فورمر: تقطيع صور مبني على محول باستخدام رموز مسبقة
الملخص

في هذه الورقة، نقترح نموذجًا لاستخلاص الصورة (image matting) يعتمد على المحولات (transformer) يُسمى MatteFormer، والذي يستغل بالكامل معلومات المصفوفة المُحددة (trimap) داخل كتلة المحول. يبدأ منهجنا بإدخال "رمز مُسبق" (prior-token)، وهو تمثيل عالمي لكل منطقة في المصفوفة المُحددة (مثل: الكائن الأمامي، الخلفية، والمنطقة غير المحددة). تُستخدم هذه الرموز المسبقة كأوليات عالمية، وتدخل في آلية الانتباه الذاتي (self-attention) في كل كتلة. تتكون كل مرحلة من المُشِّفر (encoder) من كتلة PAST (Prior-Attentive Swin Transformer)، وهي مبنية على كتلة Swin Transformer، لكنها تختلف في بعض الجوانب: 1) تحتوي على طبقة PA-WSA (Prior-Attentive Window Self-Attention) التي تقوم بالانتباه الذاتي ليس فقط مع الرموز المكانية (spatial-tokens)، بل أيضًا مع الرموز المسبقة. 2) تمتلك ذاكرة مسبقة (prior-memory) تُخزّن الرموز المسبقة تراكميًا من الكتل السابقة وتنقلها إلى الكتلة التالية. قمنا بتقييم نموذج MatteFormer على مجموعتي بيانات شائعة الاستخدام في استخلاص الصور: Composition-1k وDistinctions-646. أظهرت نتائج التجارب أن المنهج المقترح يحقق أداءً من الدرجة الأولى (state-of-the-art) بفارق كبير. يمكن الوصول إلى الكود الخاص بنا عبر الرابط التالي: https://github.com/webtoon/matteformer.