Arc2Face : Un modèle de base pour des visages humains avec cohérence d'ID

Ce document présente Arc2Face, un modèle de fond d'identité conditionnée pour les visages, qui, à partir de l'embedding ArcFace d'une personne, peut générer des images photo-réalistes diverses avec un degré de similarité faciale sans égal par rapport aux modèles existants. Bien que des tentatives précédentes aient été faites pour décoder les caractéristiques de reconnaissance faciale en images détaillées, nous constatons que les ensembles de données couramment utilisés à haute résolution (par exemple, FFHQ) manquent d'identités suffisantes pour reconstruire n'importe quel sujet. À cette fin, nous avons méticuleusement augmenté la résolution d'une partie importante de la base de données WebFace42M, le plus grand ensemble de données public pour la reconnaissance faciale (FR). Arc2Face s'appuie sur un modèle Stable Diffusion préentraîné, mais l'adapte à la tâche de génération ID-to-face, conditionnée uniquement par des vecteurs d'ID. Contrairement aux travaux récents qui combinent l'ID avec des plongements textuels pour une personnalisation zéro-shot des modèles texte-à-image, nous mettons l'accent sur la compacité des caractéristiques FR, qui peuvent pleinement capturer l'essence du visage humain, contrairement aux prompts élaborés manuellement. De manière cruciale, les modèles augmentés par le texte peinent à dissocier l'identité et le texte, nécessitant généralement une description du visage donné pour obtenir une similarité satisfaisante. Arc2Face, en revanche, n'a besoin que des caractéristiques discriminantes d'ArcFace pour guider la génération, offrant un a priori robuste pour une multitude de tâches où la cohérence ID est primordiale. Par exemple, nous avons entraîné un modèle FR sur des images synthétiques générées par notre modèle et obtenu des performances supérieures à celles des ensembles de données synthétiques existants.