متغير الفيكتور الكمي الهرمي للكشف غير المشرف عن الأخطاء متعددة الأصناف

اكتشاف الشذوذ في الصور بدون إشراف (UAD) يهدف إلى تعلم تمثيلات قوية ومميزة للعينات الطبيعية. بينما تمنح الحلول المنفصلة لكل فئة حسابات باهظة التكلفة وقابلية تعميم محدودة، فإن هذا البحث يركز على بناء إطار موحد لعدة فئات. تحت مثل هذه البيئة المعقدة، تعاني الشبكات الشعبية القائمة على إعادة الإنشاء والتي تستند إلى افتراض التمثيل الكامن المستمر دائمًا من مشكلة "الاختصار المتطابق"، حيث يمكن إعادة إنشاء العينات الطبيعية والشاذة بشكل جيد ومن الصعب تمييزها. لحل هذه المشكلة المحورية، نقترح تحويلًا (Transformer) محوره نموذج متدرج ومتجانس تحت إطار احتمالي. أولاً، بدلاً من تعلم التمثيلات المستمرة، نحتفظ بالأنماط الطبيعية النموذجية كرموز أيقونية منفصلة، ونؤكد على أهمية التكميم المتجه في منع النموذج من الوقوع في الاختصار. يتم دمج الرمز الأيقوني المتجهي في التحويل لإعادة الإنشاء بحيث يتم تحويل نقطة البيانات الشاذة إلى نقطة بيانات طبيعية. ثانيًا، ندرس إطارًا متدرجًا بديعًا لتخفيف مشكلة انهيار الكتاب الرمزي وإعادة تزويد الأنماط الطبيعية الهزيلة. ثالثًا، يتم اقتراح طريقة نقل أمثل محورها النموذج لتنظيم النماذج بشكل أفضل وتقييم درجة الشذوذ بطريقة متدرجة. عن طريق تقييم النموذج على مجموعتي البيانات MVTec-AD وVisA، يتفوق نموذجنا على البدائل الأكثر حداثة ويتمتع بقابلية فهم جيدة. الرمز البرمجي متاح على الرابط https://github.com/RuiyingLu/HVQ-Trans.