HyperAIHyperAI
منذ 2 أشهر

تمثيل مزج الوعي الدلالي من وجهتي نظر للاعتراف بالصور متعددة التسميات مع تسميات جزئية

Pu, Tao ; Chen, Tianshui ; Wu, Hefeng ; Shi, Yukai ; Yang, Zhijing ; Lin, Liang
تمثيل مزج الوعي الدلالي من وجهتي نظر للاعتراف بالصور متعددة التسميات مع تسميات جزئية
الملخص

رغم تحقيق تقدم ملحوظ، فإن خوارزميات التعرف على الصور متعددة العلامات (MLR) تعتمد بشكل كبير على قواعد بيانات كبيرة الحجم تحتوي على علامات كاملة، مما يجعل جمع قواعد البيانات هذه شديد الاستهلاك للوقت والجهد. التدريب على نماذج التعرف على الصور متعددة العلامات بعلامات جزئية (MLR-PL) هو طريقة بديلة، حيث تكون بعض العلامات معروفة بينما تكون الأخرى غير معروفة لكل صورة. ومع ذلك، تعتمد الخوارزميات الحالية لـ MLR-PL على نماذج تشابه الصور المدربة مسبقًا أو تحديث نماذج تصنيف الصور بشكل تكراري لتوليد علامات وهمية للعلامات غير المعروفة. وبالتالي، فإنها تعتمد على كمية معينة من التسميات وتتعرض حتماً لانخفاض واضح في الأداء، خاصة عندما يكون نسبة العلامات المعروفة منخفضة.لحل هذا المأزق، نقترح تمثيلًا مزدوج الرؤية يدرك الدلالات (DSRB) يقوم بدمج تمثيل الدلالات الخاصة بالفئات متعددة المستويات عبر صور مختلفة، من وجهتي النظر الفردية والنموذجية على التوالي، لنقل معلومات العلامات المعروفة وتعويض العلامات غير المعروفة. تحديداً، تم تصميم وحدة دمج التمثيل من وجهة النظر الفردية (IPRB) لدمج تمثيلات العلامات المعروفة في صورة مع تمثيلات العلامات الغير معروفة المقابلة في صورة أخرى لتعويض هذه العلامات الغير معروفة. وفي الوقت نفسه، تم تقديم وحدة دمج التمثيل من وجهة النظر النموذجية (PPRB) لتعلم نماذج تمثيل أكثر استقرارًا لكل فئة ودمج تمثيل العلامات الغير معروفة بنماذج العلامات المقابلة بطريقة حساسة للموقع لتعويض هذه العلامات الغير معروفة. أظهرت التجارب الواسعة التي أجريت على قواعد بيانات MS-COCO وVisual Genome وPascal VOC 2007 أن DSRB المقترح يتفوق باستمرار على الخوارزميات الأكثر تقدمًا حاليًا في جميع إعدادات نسبة العلامات المعروفة.

تمثيل مزج الوعي الدلالي من وجهتي نظر للاعتراف بالصور متعددة التسميات مع تسميات جزئية | أحدث الأوراق البحثية | HyperAI