HyperAIHyperAI
il y a 2 mois

TXL-PBC : un jeu de données librement accessible de cellules sanguines périphériques étiquetées

Gan, Lu ; Li, Xi
TXL-PBC : un jeu de données librement accessible de cellules sanguines périphériques étiquetées
Résumé

Dans une récente étude, nous avons constaté que les ensembles de données BCCD et BCD publiquement disponibles présentaient des problèmes significatifs tels que des erreurs d'étiquetage, une taille d'échantillon insuffisante et une qualité de données médiocre. Pour remédier à ces problèmes, nous avons effectué des suppressions d'échantillons, un réétiquetage et une intégration de ces deux ensembles de données. De plus, nous avons introduit les ensembles de données PBC et Raabin-WBC, et avons finalement créé un nouvel ensemble de données de haute qualité et équilibré en termes d'échantillons, que nous avons nommé TXL-PBC. Cet ensemble de données comprend 1008 jeux d'entraînement, 288 jeux de validation et 144 jeux de test.Premièrement, l'ensemble de données a subi une annotation manuelle stricte, une annotation automatique avec le modèle YOLOv8n, ainsi qu'une vérification manuelle pour garantir la précision et la cohérence des annotations. Deuxièmement, nous avons corrigé le problème d'étiquetage erroné des cellules sanguines dans les ensembles de données originaux. La distribution des surfaces des boîtes englobantes des étiquettes et le nombre d'étiquettes sont meilleurs que ceux des ensembles de données BCCD et BCD. En outre, nous avons utilisé le modèle YOLOv8n pour entraîner ces trois ensembles de données, et les performances du dataset TXL-PBC surpassent celles des deux ensembles originaux.Enfin, nous avons employé les modèles de détection YOLOv5n, YOLOv5s, YOLOv5l, YOLOv8s et YOLOv8m comme modèles basiques pour le dataset TXL-PBC. Cette étude non seulement améliore la qualité des ensembles de données sur les cellules sanguines mais aussi soutient les chercheurs dans l'amélioration des modèles pour la détection ciblée des cellules sanguines. Nous avons publié notre ensemble de données TXL-PBC librement accessible sur https://github.com/lugan113/TXL-PBC_Dataset.