Bamboo : Construction Continue d'un Jeu de Données Vision à Grande Échelle grâce à une Synergie Homme-Machine

Les grands jeux de données jouent un rôle fondamental en vision par ordinateur. Toutefois, les jeux de données actuels sont annotés de manière aveugle, sans distinction entre les échantillons, ce qui rend la collecte de données inefficace et non évolutif. La question ouverte consiste à savoir comment construire de manière active un jeu de données de taille mégascale. Bien que des algorithmes avancés d'apprentissage actif puissent constituer une réponse, nous avons expérimentalement constaté qu'ils se révèlent insuffisants dans un scénario réaliste d'annotation, où les données hors distribution sont abondantes. Ce travail propose donc un nouveau cadre d'apprentissage actif adapté à l'annotation de jeux de données réalistes. Grâce à ce cadre, nous avons construit un jeu de données visuelles de haute qualité — Bamboo — comprenant 69 millions d'annotations de classification d'images réparties sur 119 000 catégories, ainsi que 28 millions d'annotations de boîtes englobantes pour la détection, réparties sur 809 catégories. Nous avons organisé ces catégories selon une taxonomie hiérarchique intégrée à partir de plusieurs bases de connaissances. Les annotations de classification sont quatre fois plus nombreuses que celles d'ImageNet22K, et celles de détection sont trois fois supérieures à celles d'Object365. Par rapport à ImageNet22K et Object365, les modèles pré-entraînés sur Bamboo atteignent des performances supérieures sur diverses tâches en aval (gains de 6,2 % en classification et de 2,1 % en détection). Nous pensons que notre cadre d'apprentissage actif ainsi que Bamboo constituent des éléments essentiels pour les travaux futurs.