
최근의 연구에서 우리는 공개된 BCCD 및 BCD 데이터셋이 라벨링 오류, 샘플 수 부족, 데이터 품질 저하 등의 중대한 문제를 가지고 있음을 발견했습니다. 이러한 문제들을 해결하기 위해, 우리는 두 데이터셋의 샘플 삭제, 재라벨링, 그리고 통합 작업을 수행했습니다. 또한, PBC와 Raabin-WBC 데이터셋을 소개하고, 최종적으로 고품질이고 샘플 균형이 맞춰진 새로운 데이터셋인 TXL-PBC를 생성했습니다. 이 데이터셋은 1008개의 학습 세트, 288개의 검증 세트, 144개의 테스트 세트를 포함하고 있습니다.첫째, 이 데이터셋은 엄격한 수작업 주석화, YOLOv8n 모델을 사용한 자동 주석화, 그리고 수작업 검토 단계를 거쳐 주석화의 정확성과 일관성을 보장하였습니다. 둘째, 원래 데이터셋들의 혈액 세포 라벨링 오류 문제를 해결하였습니다. 라벨 경계 상자 면적 분포와 라벨 수는 BCCD 및 BCD 데이터셋보다 우수합니다. 또한, 우리는 YOLOv8n 모델을 사용하여 이 세 가지 데이터셋을 학습하였으며, TXL-PBC 데이터셋의 성능은 원래 두 개의 데이터셋을 능가하였습니다.마지막으로, 우리는 YOLOv5n, YOLOv5s, YOLOv5l, YOLOv8s, YOLOv8m 탐지 모델들을 TXL-PBC의 베이스라인 모델로 활용하였습니다. 본 연구는 혈액 세포 데이터셋의 품질을 향상시키는 것뿐만 아니라 연구자들이 혈액 세포 타겟 탐지 모델을 개선하는 데도 도움을 줍니다. 우리는 이 TXL-PBC 데이터셋을 자유롭게 접근할 수 있도록 https://github.com/lugan113/TXL-PBC_Dataset 에 공개하였습니다.