تجميع الصور مع التوجيه الخارجي

جوهر التجميع يكمن في دمج المعرفة السابقة لبناء إشارات إشراف. ومن طريقة k-means الكلاسيكية القائمة على الكثافة البياناتية إلى التجميع التبايني الحديث المُرشَد بالتعلم الذاتي، فإن تطور طرق التجميع يتوافق جوهريًا مع تطور إشارات الإشراف. في الوقت الراهن، تم بذل جهود كبيرة لاستخراج إشارات إشراف داخلية من البيانات. ومع ذلك، تُهمل بشكل مأساوي المعرفة الخارجية الغنية مثل الوصفات الدلالية، التي تُعد طبيعية لدعم التجميع. في هذه الدراسة، نقترح استغلال المعرفة الخارجية كإشارة إشراف جديدة لتوجيه التجميع، حتى وإن بدت غير ذات صلة بالبيانات المعطاة. ولتنفيذ وتحقق هذه الفكرة، نصمم طريقة تجميع موجهة من الخارج (TAC: تكتيك التجميع المدعوم بالنص)، التي تستفيد من المعاني النصية لكلمة WordNet لتسهيل تجميع الصور. بشكل خاص، تبدأ TAC باختيار واسترجاع الأسماء من WordNet التي تميز الصور بشكل أفضل لتعزيز تمييزية الميزات. ثم، لتحسين أداء تجميع الصور، تتعاون TAC بين النمطين النصي والصوري من خلال تبادل تباعدي معلومات الجيران عبر الوسائط. تُظهر التجارب أن TAC تحقق أداءً متقدمًا على مستوى الحالة (state-of-the-art) في خمسة معايير شائعة لجمع الصور، بالإضافة إلى ثلاث معايير أكثر تحديًا، بما في ذلك مجموعة بيانات ImageNet-1K الكاملة.