شبكة تباينية موجهة بالدلالات للكشف عن الأشياء دون الحاجة إلى التدريب المسبق

اكتشاف الأشياء بدون تدريب مسبق (ZSD)، وهو المهمة التي تمتد إلى اكتشاف الأشياء من فئات غير مرئية في النماذج التقليدية للاكتشاف، ظهر كتحدي جديد في مجال رؤية الحاسوب. تعتمد معظم الأساليب الحالية على استراتيجية نقل الترميز الصارمة للتعامل مع مهمة ZSD، مما قد يؤدي إلى نتائج زائدة عن الحاجة: 1) عملية التعلم لتلك النماذج تتجاهل المعلومات المتاحة حول الفئات غير المرئية، وبالتالي يمكن أن تكون متحيزة بسهولة نحو الفئات المرئية؛ 2) المساحة البصرية الأصلية ليست مهيكلة بشكل جيد وتفتقر إلى المعلومات التمييزية. لحل هذه المشكلات، طورنا شبكة تباينية موجهة بالمعنى جديدة لمهمة ZSD أطلقنا عليها اسم ContrastZSD، وهي إطار عمل للاكتشاف يجلب آلية التعلم بالتباين لأول مرة إلى مجال الاكتشاف بدون تدريب مسبق. خصوصًا، يدمج ContrastZSD شبكتين فرعيتين للتباين الموجه بالمعنى تقومان بتباين أزواج المنطقة-الفئة والمنطقة-المنطقة على التوالي. تستفيد المهام التباينية الثنائية من إشارات إشراف إضافية مشتقة من كل من العلامة الحقيقية وتوزيع الشبه بين الفئات المحدد مسبقًا. تحت إرشاد تلك الإشارات الإشرافية الصريحة بالمعنى، يمكن للنموذج أن يتعلم المزيد من المعرفة حول الفئات غير المرئية لتجنب مشكلة الانحياز نحو المفاهيم المرئية، بينما يقوم بتحسين بنية البيانات للخصائص البصرية ليكون أكثر تمييزًا لتحقيق تناسب أفضل بين السمات البصرية والمعنوية. أجريت تجارب واسعة على مقعدين شائعين للمعايير في ZSD، وهما PASCAL VOC وMS COCO. أظهرت النتائج أن طريقتنا تتفوق على أفضل الطرق السابقة في كل من مهمتي ZSD والمهمة العامة لـ ZSD.请注意,对于科技领域的专有名词,如 "Zero-shot object detection (ZSD)" 和 "PASCAL VOC" 等,我保留了它们的英文形式并在首次出现时进行了中文注释。在阿拉伯语中,这些专有名词通常也会保留英文形式以确保专业性和准确性。