Apprentissage de cascades tenant compte de la complexité pour la détection profonde des piétons

On considère la conception de détecteurs en cascade sensibles à la complexité, combinant des caractéristiques de complexités très différentes. Une nouvelle procédure de conception en cascade est introduite, en formulant l'apprentissage en cascade comme l'optimisation lagrangienne d'un risque qui prend en compte à la fois la précision et la complexité. Un algorithme de boosting, dénommé formation en cascade sensible à la complexité (CompACT), est ensuite dérivé pour résoudre cette optimisation. Il est démontré que les cascades CompACT recherchent un compromis optimal entre précision et complexité en reportant les caractéristiques de plus grande complexité aux étapes ultérieures de la cascade, où seuls quelques patches candidats difficiles restent à classer. Cela permet d'utiliser dans un seul détecteur des caractéristiques dont les complexités varient considérablement. Par conséquent, le bassin de caractéristiques peut être élargi à des caractéristiques auparavant peu pratiques pour la conception en cascade, telles que les réponses d'un réseau neuronal convolutif profond (CNN). Ceci est illustré par la conception d'un détecteur piéton avec un ensemble de caractéristiques dont les complexités couvrent plusieurs ordres de grandeur. La cascade résultante généralise la combinaison d'un CNN avec un mécanisme de proposition d'objets : au lieu d'être une étape préalable, les cascades CompACT intègrent sans couture les CNNs dans leurs étapes. Cela permet d'atteindre des performances de pointe sur les jeux de données Caltech et KITTI, à des vitesses relativement rapides.