PAD: مجموعة بيانات ومقياس للكشف عن الشذوذ المستقل عن الوضعية

كشف التسرب الكائنات يُعد مشكلة مهمة في مجال الرؤية الآلية، وقد شهد تقدماً ملحوظاً في الآونة الأخيرة. ومع ذلك، تواجه بحوثه وتطبيقاته تحديان رئيسيان. أولاً، تعاني المجموعات الحالية من نقص في المعلومات البصرية الشاملة من زوايا مختلفة. وغالباً ما تفترض هذه المجموعات افتراضًا غير واقعي أن مجموعة التدريب الخالية من العيوب تكون متماشية من حيث الوضعية (pose-aligned)، وأن عينات الاختبار لها نفس الوضعية التي كانت عليها بيانات التدريب. لكن في الواقع، قد تظهر العيوب في أي منطقة من أجزاء الكائن، وقد تختلف الوضعيات بين عينات التدريب والبحث، مما يستدعي دراسة كشف التسرب المستقل عن الوضعية (pose-agnostic anomaly detection). ثانيًا، يُعد غياب اتفاق حول بروتوكولات التجريب الخاصة بكشف التسرب المستقل عن الوضعية سبباً في مقارنات غير عادلة بين الطرق المختلفة، ما يعيق تقدماً في هذا المجال.لحل هذين التحديين، قمنا بتطوير مجموعة بيانات تُسمى "كشف التسرب متعدد الوضعيات" (Multi-pose Anomaly Detection - MAD) وبيئة تقييم تُسمى "كشف التسرب المستقل عن الوضعية" (Pose-agnostic Anomaly Detection - PAD)، والتي تمثل الخطوة الأولى في معالجة مشكلة كشف التسرب المستقل عن الوضعية. وبشكل خاص، بنينا مجموعة MAD باستخدام 20 لعبة من ألعاب الليغو ذات الأشكال المعقدة، تضم 4000 صورة من زوايا مختلفة، بالإضافة إلى عيوب ثلاثية الأبعاد عالية الجودة ومتنوعة في بيئات محاكاة وواقعية. علاوة على ذلك، قمنا بطرح طريقة جديدة تُسمى "أومنيبوس أد" (OmniposeAD)، تم تدريبها باستخدام مجموعة MAD، وتُصمم خصيصاً للكشف عن التسرب المستقل عن الوضعية. من خلال تقييمات شاملة، أظهرنا صلة وفعالية مجموعتنا وأسلوبنا. وبالمثل، قمنا بتوفير مكتبة مفتوحة المصدر تشمل مجموعة البيانات والأساليب الأساسية التي تغطي 8 نماذج مختلفة لكشف التسرب، لتمكين الأبحاث والتطبيقات المستقبلية في هذا المجال. يمكن الوصول إلى الكود والبيانات والنموذج عبر الرابط التالي: https://github.com/EricLee0224/PAD.