توليدات توليدية معنوية لتعزيز العد القليل العينات

مع توفر نماذج التوليد النصية إلى الصورية القوية من نوع التشتت (diffusion)، اهتمت الدراسات الحديثة باستخدام البيانات الاصطناعية لتحسين أداء تصنيف الصور. تُظهر هذه الدراسات أن البيانات الاصطناعية يمكن أن تُستخدم بفعالية لتوسيع البيانات الحقيقية أو حتى استبدالها. في هذا العمل، نستعرض كيف يمكن للبيانات الاصطناعية أن تُفيد في المهمة الخاصة بالعد غير المُخصص للصنف (few-shot class-agnostic counting)، والتي تتطلب توليد صور تتوافق مع عدد معين من الكائنات المُدخل. ومع ذلك، تواجه نماذج التوليد النصية إلى الصورية صعوبة في فهم مفهوم العد. نقترح الاعتماد على تكييف مزدوج لنموذج Stable Diffusion باستخدام كل من النص التوضيحي (prompt) والخريطة الكثافة (density map) لتوسيع مجموعة التدريب الخاصة بمهام العد القليلة. نظرًا لصغر حجم مجموعة البيانات، فإن النموذج المُعدّل دقيقًا يميل إلى إنتاج صور مشابهة جدًا للصور المستخدمة في التدريب. ولتحسين تنوع الصور المُولَّدة، نقترح تبادل العناوين (captions) بين الصور، مما يؤدي إلى خلق تكوينات غير مسبوقة من أنواع الكائنات والتخطيط المكاني. تُظهر تجاربنا أن استراتيجية التوليد المتنوعة التي نقترحها تُحسّن بشكل ملحوظ دقة العد في نموذجين حديثين وفعّالين لمهام العد القليلة، على مجموعتي بيانات FSC147 وCARPK.