Pour booster ou ne pas booster ? Sur les limites des arbres boostés pour la détection d'objets

Nous visons à étudier les limites de modélisation du classificateur d'arbres de décision boostés couramment utilisé. Inspirés par le succès des grands modèles de reconnaissance visuelle avides de données (par exemple, les réseaux neuronaux convolutifs profonds), cet article se concentre sur la relation entre la capacité de modélisation des apprenants faibles, la taille du jeu de données et les propriétés du jeu de données. Un ensemble d'expériences novatrices sur le benchmark de détection de piétons Caltech aboutit aux meilleures performances connues parmi les techniques non-CNN tout en opérant à une vitesse d'exécution rapide. De plus, ces performances sont comparables à celles des architectures profondes (taux de manquement logarithmique moyen de 9,71 %) en utilisant uniquement les canaux HOG+LUV comme caractéristiques. Les conclusions tirées de cette étude sont montrées pour être généralisables à différents domaines de détection d'objets, comme le démontre le benchmark de détection faciale FDDB (précision de 93,37 %). Malgré les performances impressionnantes, cette étude révèle la capacité limitée de modélisation du modèle d'arbres boostés courant, motivant ainsi un besoin de modifications architecturales pour pouvoir rivaliser avec les architectures multiniveaux et très profondes.