HyperAIHyperAI
il y a 17 jours

Un Œil Suffit à Tout : Ensembles Légers pour l'Estimation du Regard avec des Encoders Uniques

Rishi Athavale, Lakshmi Sritan Motati, Rohan Kalahasty
Un Œil Suffit à Tout : Ensembles Légers pour l'Estimation du Regard avec des Encoders Uniques
Résumé

L’estimation du regard a connu une progression rapide en précision ces dernières années. Toutefois, ces modèles peinent souvent à tirer parti de différentes algorithmes et techniques de vision par ordinateur (CV) – telles que les réseaux ResNet et Inception de petite taille ou les modèles ensemblistes – qui se sont avérés efficaces pour améliorer les résultats sur d'autres problèmes de vision par ordinateur. En outre, la plupart des modèles actuels d’estimation du regard nécessitent l’acquisition à la fois des deux yeux ou d’une image complète du visage, alors que les données du monde réel ne disposent pas toujours d’une résolution élevée pour les deux yeux. Ainsi, nous proposons un modèle d’estimation du regard fondé sur les architectures ResNet et Inception, capable de produire des prédictions à partir d’une seule image d’un œil. Par ailleurs, nous introduisons un réseau d’étalonnage ensembliste qui combine les prédictions de plusieurs architectures individuelles afin d’obtenir des estimations spécifiques à chaque sujet. Grâce à l’utilisation d’architectures légères, nous atteignons des performances élevées sur le jeu de données GazeCapture avec un nombre très faible de paramètres. Lorsqu’on utilise deux yeux comme entrée, nous obtenons une erreur de prédiction de 1,591 cm sur l’ensemble de test sans étalonnage, et de 1,439 cm avec un modèle d’étalonnage ensembliste. Avec une seule image d’œil en entrée, nous parvenons tout de même à une erreur moyenne de 2,312 cm sans étalonnage, et de 1,951 cm avec le modèle d’étalonnage ensembliste. Nous observons également des erreurs significativement plus faibles sur les images de l’œil droit dans l’ensemble de test, ce qui pourrait revêtir une importance cruciale dans la conception d’outils futurs basés sur l’estimation du regard.

Un Œil Suffit à Tout : Ensembles Légers pour l'Estimation du Regard avec des Encoders Uniques | Articles de recherche récents | HyperAI