HyperAIHyperAI
منذ 17 أيام

ViTMatte: تعزيز التصنيف الدقيق للصور باستخدام نماذج الرؤية الشفافة المُدرَّبة مسبقًا

Jingfeng Yao, Xinggang Wang, Shusheng Yang, Baoyuan Wang
ViTMatte: تعزيز التصنيف الدقيق للصور باستخدام نماذج الرؤية الشفافة المُدرَّبة مسبقًا
الملخص

في الآونة الأخيرة، أظهرت نماذج المحولات البصرية البسيطة (ViTs) أداءً مبهرًا في مهام الرؤية الحاسوبية المختلفة، بفضل قدرتها القوية على النمذجة وتدريبها المسبق على نطاق واسع. ومع ذلك، لم تتمكن بعد من التغلب على مشكلة التلوين الصوري (image matting). نفترض أن تلوين الصور يمكن أن يُحسّن أيضًا بفضل استخدام ViTs، ونقدم نظامًا جديدًا فعّالًا ومقاومًا يعتمد على ViT، يُسمى ViTMatte. تعتمد طريقتنا على (i) آلية انتباه هجينة مدمجة مع طبقة توصيل مبنية على التحويلات التلافيفية (convolution neck)، مما يساعد ViTs على تحقيق توازن ممتاز بين الأداء والحساب في مهام التلوين. (ii) بالإضافة إلى ذلك، نُقدّم وحدة التقاط التفاصيل (detail capture module)، التي تتكون فقط من تحويلات تلافيفية بسيطة وخفيفة الوزن، لتعويض المعلومات التفصيلية المطلوبة في التلوين. إلى أقصى معرفة لدينا، يُعدّ ViTMatte أول عمل يُطلق الإمكانات الكامنة لـ ViT في تلوين الصور من خلال تكييف موجز وفعال. ويُرث هذا النظام العديد من الخصائص المتميزة لـ ViT في مجال التلوين، بما في ذلك استراتيجيات التدريب المسبق المتنوعة، وتصميم معماري موجز، واستراتيجيات استنتاج مرنة. وقد قمنا بتقييم ViTMatte على مجموعتي البيانات Composition-1k وDistinctions-646، وهما المعياران الأكثر استخدامًا في تقييم تلوين الصور، حيث حقق الأداء المتفوق على المستوى الحالي، وتفوّق على الأعمال السابقة في التلوين بمقدار كبير.