FusionCount : estimation efficace de la densité de foule par fusion de caractéristiques multiscales

Les modèles d’estimation de foule de pointe s’appuient sur une approche encodeur-décodage. Les images sont d’abord traitées par l’encodeur afin d’extraire des caractéristiques. Ensuite, afin de tenir compte de la distorsion perspective, la carte de caractéristiques de plus haut niveau est transmise à des composants supplémentaires afin d’extraire des caractéristiques multi-échelles, qui servent d’entrée au décodeur pour générer la densité de foule. Toutefois, dans ces méthodes, les caractéristiques extraites aux étapes précoces de l’encodage restent sous-utilisées, et les modules multi-échelles ne peuvent capter qu’une gamme limitée de champs réceptifs, malgré un coût computationnel important. Ce papier propose une nouvelle architecture d’estimation de foule (FusionCount), qui exploite une fusion adaptative d’une grande majorité des caractéristiques encodées, au lieu de s’appuyer sur des composants supplémentaires pour extraire les caractéristiques multi-échelles. Cette approche permet ainsi de couvrir une gamme plus étendue de tailles de champs réceptifs tout en réduisant le coût computationnel. Nous introduisons également un nouveau bloc de réduction de canal, capable d’extraire des informations de salience pendant le décodage, ce qui améliore davantage les performances du modèle. Des expériences menées sur deux bases de données de référence démontrent que notre modèle atteint des résultats de pointe tout en réduisant sa complexité computationnelle.