Estimation faiblement supervisée de l'orientation du regard sans contrainte physique

Un défi majeur pour l’estimation de l’attention visuelle sans contrainte physique réside dans l’acquisition de données d’entraînement munies d’étiquettes 3D de regard pour des scénarios « in-the-wild » et en extérieur. En revanche, les vidéos d’interactions humaines dans des environnements non contraints sont abondamment disponibles et peuvent être annotées bien plus facilement à l’aide d’étiquettes d’activité au niveau des trames. Dans ce travail, nous abordons le problème auparavant peu exploré de l’estimation faiblement supervisée du regard à partir de vidéos d’interactions humaines. Nous exploitons l’observation selon laquelle des contraintes géométriques fortes liées au regard existent lorsque les individus effectuent l’activité de « se regarder mutuellement » (LAEO, Looking At Each Other). Pour obtenir une supervision 3D du regard exploitables à partir d’étiquettes LAEO, nous proposons un algorithme d’entraînement ainsi qu’une série de nouvelles fonctions de perte spécifiquement conçues pour cette tâche. Grâce à une supervision faible issue de deux grands jeux de données d’activités CMU-Panoptic et AVA-LAEO, nous démontrons des améliorations significatives en (a) précision de l’estimation du regard semi-supervisée et (b) généralisation inter-domaines sur le benchmark de pointe d’estimation du regard en extérieur sans contrainte physique, Gaze360. Nous mettons notre code à disposition sous licence open source à l’adresse suivante : https://github.com/NVlabs/weakly-supervised-gaze.