تلخيص المجموعة البيانات من خلال K مفاهيم رئيسية

نُقدّم المهمة الجديدة لتحديد المفاهيم الرئيسية K لملخص مجموعة البيانات. الهدف هو العثور على مجموعة من المفاهيم K التي تفسّر بشكل أفضل التباين داخل مجموعة البيانات. وتشير المفاهيم إلى مصطلحات عالية المستوى يمكن فهمها بسهولة من قبل البشر، مثل "نمر" أو "التجديف" أو "سعيد". يتم اختيار هذه المفاهيم K من قائمة مرشحة طويلة (ربما طويلة جدًا)، والتي نُسميها "مصرف المفاهيم". ويمكن أخذ مصرف المفاهيم من قاموس عام، أو بناؤه باستخدام معرفة سابقة مخصصة للمهمة. ويُستخدم أسلوب تضمين الصور واللغة (مثل CLIP) لتحويل الصور ومصرف المفاهيم إلى فضاء ميزة مشترك. ولتحديد المفاهيم K التي تفسّر البيانات بشكل أفضل، نُصيغ مسألتنا كمشكلة توزيع مرافق غير محدودة (K-uncapacitated facility location problem). ونُطبّق تقنية تحسين فعّالة لتمكين خوارزمية البحث المحلي من التوسع لتعمل على مصادر مفاهيم ضخمة جدًا. ويُنتج منهجنا مجموعة من المفاهيم الرئيسية K التي تلخّص مجموعة البيانات. ويُقدّم هذا النهج ملخصًا أكثر وضوحًا مقارنة باختيار K صور تمثيلية، التي غالبًا ما تكون غامضة. كما يمكن استخدام المفاهيم الرئيسية K كأداة لتصنيف مجموعة البيانات إلى K مجموعات، كتطبيق إضافي. وتبين التجارب الواسعة فعالية منهجنا.