Estimation de la densité de foule par réseaux d'attention guidés par la segmentation et perte curriculaire

L’analyse automatique du comportement des foules constitue une tâche essentielle pour les systèmes de transport intelligents, permettant un contrôle efficace du flux et une planification dynamique des itinéraires en fonction des participants changeants sur la route. Le dénombrement des foules représente l’un des maillons clés de cette analyse. En effet, les méthodes de dénombrement des foules basées sur les réseaux de neurones convolutifs profonds (CNN) ont connu des progrès encourageants ces dernières années. De nombreux chercheurs se sont consacrés à la conception d’architectures variées de CNN, la plupart s’appuyant sur le modèle pré-entraîné VGG16. Toutefois, en raison d’une capacité d’expression insuffisante, le réseau principal (backbone) de VGG16 est généralement suivi par un réseau supplémentaire complexe spécialement conçu pour garantir de bonnes performances en dénombrement. Bien que les modèles Inception aient surpassé VGG dans les tâches de classification d’images, les réseaux actuels de dénombrement des foules basés sur des modules Inception ne comportent encore que peu de couches utilisant des types fondamentaux de modules Inception. Pour combler cet écart, dans cet article, nous établissons d’abord une base de référence (benchmark) du modèle Inception-v3 sur des jeux de données couramment utilisés pour le dénombrement des foules, et obtenons des performances remarquables, comparables ou supérieures à celles de la plupart des modèles existants. Ensuite, nous allons plus loin en proposant un nouveau modèle, le Segmentation Guided Attention Network (SGANet), dont le backbone est Inception-v3, couplé à une nouvelle fonction de perte curriculaire adaptée au dénombrement des foules. Des expérimentations approfondies sont menées afin de comparer les performances de notre SGANet avec celles des méthodes antérieures. Le modèle proposé atteint ainsi des performances de pointe, avec des erreurs absolues moyennes (MAE) respectivement de 57,6, 6,3 et 87,6 sur les jeux de données ShanghaiTechA, ShanghaiTechB et UCF_QNRF.