Reizende Eigenschaften generativer Klassifikatoren

Welches Paradigma ist am besten geeignet, um Objekte zu erkennen – diskriminative Inferenz (schnell, aber potenziell anfällig für Kurzschlusslernverhalten) oder die Verwendung eines generativen Modells (langsam, aber möglicherweise robuster)? Wir bauen auf jüngsten Fortschritten in der generativen Modellierung auf, die Text-zu-Bild-Modelle zu Klassifikatoren umfunktionieren. Dadurch können wir ihr Verhalten untersuchen und sie mit diskriminativen Modellen sowie menschlichen psychophysischen Daten vergleichen. Wir berichten über vier beeindruckende emergente Eigenschaften generativer Klassifikatoren: Sie zeigen eine rekordverdächtige, menschenähnliche Formbias (99 % bei Imagen), nahezu menschliche Leistung bei Out-of-Distribution-Aufgaben, den derzeit besten Stand der Forschung hinsichtlich der Übereinstimmung mit menschlichen Klassifikationsfehlern und ein Verständnis bestimmter wahrnehmungsbedingter Illusionen. Unsere Ergebnisse deuten darauf hin, dass, obwohl das derzeit dominierende Paradigma zur Modellierung der menschlichen Objekterkennung die diskriminative Inferenz ist, zero-shot generative Modelle die menschliche Objekterkennung überraschend gut nachahmen.