Propriétés intrigantes des classifieurs génératifs

Quel est le meilleur paradigme pour reconnaître des objets — l’inférence discriminative (rapide, mais potentiellement sujette à l’apprentissage par raccourci) ou l’utilisation d’un modèle génératif (lent, mais potentiellement plus robuste) ? Nous nous appuyons sur les avancées récentes en modélisation générative qui permettent de transformer des modèles text-to-image en classificateurs. Cela nous permet d’étudier leur comportement et de les comparer aux modèles discriminatifs ainsi qu’aux données psychophysiques humaines. Nous rapportons quatre propriétés émergentes fascinantes des classificateurs génératifs : ils présentent une biais forme humain-like record (99 % pour Imagen), une précision quasi humaine sur des données hors distribution, un alignement de pointe avec les erreurs de classification humaines, et une compréhension de certaines illusions perceptuelles. Nos résultats indiquent que, bien que le paradigme dominant actuel pour modéliser la reconnaissance humaine des objets soit l’inférence discriminative, les modèles génératifs zéro-shot s’approchent étonnamment bien des données de reconnaissance humaine des objets.