
要約
オブジェクト認識において最も効果的な枠組みは何か——判別的推論(高速だがショートカット学習に脆弱な可能性がある)か、生成モデルを用いる方法(遅いがよりロバストな可能性がある)か。我々は、テキストから画像を生成するモデルを分類器として利用できるようにする生成モデル分野の最近の進展に着目し、その挙動を検証し、判別的モデルおよび人間の知覚心理学的データと比較する。本研究では、生成型分類器に4つの興味深い自己組織的性質が見出された:Ima-genでは人間と同等の形状バイアス(99%)を達成しており、記録的な水準に達している;分布外データに対する精度が人間レベルに近い;人間の分類誤りと高い一致度(最先端の性能)を示している;また、特定の知覚的錯視を理解している。これらの結果から、現在のヒトのオブジェクト認識をモデル化する主流は判別的推論であるものの、ゼロショット生成モデルがヒトのオブジェクト認識データを驚くほどよく再現していることが示された。