منذ 17 أيام
VT-ADL: شبكة ترانسفورمر البصري للكشف عن الشذوذ في الصور والتحديد المكاني
Pankaj Mishra, Riccardo Verk, Daniele Fornasier, Claudio Piciarelli, Gian Luca Foresti

الملخص
نقدّم شبكة للكشف عن الشذوذ في الصور وتحديد موضعه تعتمد على نموذج الترانسفورمر. يتكوّن النموذج المقترح من مزيج بين نهج الاستعادة وتمثيل القطع (patch embedding). ويساعد استخدام شبكات الترانسفورمر على الحفاظ على المعلومات المكانية للقطع المُدمجة، والتي تُعالج لاحقًا بواسطة شبكة كثافة توزيع مزيج غاوسي (Gaussian mixture density network) لتحديد المناطق الشاذة. بالإضافة إلى ذلك، نُطلق أيضًا مجموعة بيانات BTAD، وهي مجموعة بيانات واقعية صناعية للشذوذ. وتمت مقارنة نتائجنا مع خوارزميات حديثة أخرى باستخدام مجموعات بيانات متاحة للعامة مثل MNIST وMVTec.