Estimation du Regard Adaptative en Few-Shot

Les différences anatomiques interpersonnelles limitent la précision des réseaux d'estimation du regard indépendants de la personne. Cependant, il est nécessaire de réduire davantage les erreurs de regard pour permettre des applications nécessitant une qualité supérieure. Des gains supplémentaires peuvent être obtenus en personnalisant les réseaux d'estimation du regard, idéalement avec peu d'échantillons de calibration. Toutefois, les réseaux neuronaux sur-paramétrés ne sont pas propices à l'apprentissage à partir de peu d'exemples car ils peuvent rapidement sur-apprendre. Nous relevons ces défis et proposons un cadre novateur pour l'Estimation Adaptative du Regard en Peu de Tirs (FAZE) permettant d'apprendre des réseaux d'estimation du regard spécifiques à chaque personne avec très peu (inférieurs ou égaux à 9) d'échantillons de calibration. FAZE apprend une représentation latente du regard sensible à la rotation grâce à une architecture encodeur-décodeur dissociante, associée à un estimateur de regard hautement adaptable formé par méta-apprentissage. Il est capable de s'adapter à toute nouvelle personne pour offrir des gains de performance significatifs avec seulement 3 échantillons, atteignant ainsi une performance sans égale de 3,18 degrés sur GazeCapture, soit une amélioration de 19 % par rapport aux travaux antérieurs. Nous mettons notre code en open source sur https://github.com/NVlabs/few_shot_gaze.