التصنيف المُراقب عبر الويب للصور باستخدام البيانات الوصفية: تصحيح تلقائي للوسم الضار من خلال الرسم البياني البصري-الدلالية

يُعد التعلم المُدرَّب على الإنترنت (Webly supervised learning) جذابًا مؤخرًا بفضل كفاءته في توسيع البيانات دون الحاجة إلى تسمية بشرية مكلفة. ومع ذلك، فإن استخدام عبارات البحث أو العلامات (#hashtags) كتسميات ويب للصور أثناء التدريب يؤدي إلى توليد ضجيج هائل يُضعف أداء الشبكات العصبية العميقة (DNNs). وبخاصة، نظرًا للاضطراب الدلالي في كلمات البحث، فإن الصور التي تُسترجع بعبارة بحث واحدة قد تحتوي على عدد كبير من الصور التي تنتمي إلى مفاهيم أخرى. على سبيل المثال، عند البحث عن "tiger cat" على منصة Flickr، تظهر غالبية النتائج عبارة عن صور أشبال نمر، وليس صور قطط. غالبًا ما تمتلك هذه العينات الضجيجية الواقعية مجموعات بصرية واضحة في الفضاء البصري، مما يُربك الشبكات العصبية العميقة ويمنعها من تعلّم التسميات الدلالية الدقيقة. ولتصحيح التسميات الضجيجية الحقيقية، يبدو أن التسمية البشرية المكلفة ضرورية. ولكن من الجدير بالذكر أننا وجدنا أن البيانات الوصفية (metadata) يمكن أن توفر معرفة إضافية للكشف عن تسميات ويب نظيفة بطريقة تلقائية وغير مكلفة، مما يجعل من الممكن توفير دليل دلالي صحيح تلقائيًا ضمن كميات ضخمة من البيانات الويب التي تحتوي على تسميات مشوهة. في هذه الورقة، نقترح أداة تصحيح تسميات تلقائية تُسمى VSGraph-LC، تعتمد على الرسم البياني البصري-الدلالي (Visual-Semantic Graph). تبدأ VSGraph-LC باختيار العقد الأساسية (anchors) بناءً على التشابه الدلالي بين البيانات الوصفية والمفاهيم الصحيحة للتصنيف، ثم تقوم بتوسيع التسميات الصحيحة من هذه العقد على الرسم البياني البصري باستخدام شبكة عصبية رسومية (Graph Neural Network - GNN). أظهرت التجارب على مجموعات بيانات واقعية للتعلم المُدرَّب على الإنترنت، مثل Webvision-1000 وNUS-81-Web، فعالية ومتانة VSGraph-LC. علاوة على ذلك، أظهرت VSGraph-LC ميزة واضحة في تقييم المجموعة المفتوحة (open-set validation set).