خصائص جذابة لل classifyers التوليدية

ما هو النموذج الأمثل للتعرف على الكائنات: الاستنتاج التمييزي (سريع لكنه قد يكون عرضة لتعلم حلول مختصرة) أم استخدام نموذج توليدي (بطيء لكنه قد يكون أكثر مرونة)؟ نعتمد في هذا العمل على التطورات الحديثة في النمذجة التوليدية التي تحول نماذج التوليد النصي-الصوري إلى تصنيفات. هذا يمكّننا من دراسة سلوك هذه النماذج ومقارنتها مع النماذج التمييزية وبيانات السلوك البشري الحسي. نُبلغ عن أربع خصائص مُبهرة تظهر بشكل تلقائي في النماذج التوليدية للتصنيف: فهي تُظهر انحيازًا شكلياً يشبه الإنسان بشكل قياسي (99% في نموذج Imagen)، ودقة تقريبًا على مستوى الإنسان في التصنيف خارج التوزيع (out-of-distribution)، وتميّزًا متقدماً جداً في التوافق مع أخطاء التصنيف البشرية، كما أنها تفهم بعض الخدع البصرية. تشير نتائجنا إلى أن، على الرغم من أن النموذج السائد حاليًا في نمذجة التعرف البشري على الكائنات هو الاستنتاج التمييزي، فإن النماذج التوليدية الصفرية (zero-shot) تُقلّد بيانات التعرف البشري على الكائنات بشكل مدهش.