
最近の研究で、公開されているBCCDおよびBCDデータセットにラベリングエラー、サンプル数の不足、データ品質の低さなどの重大な問題があることが明らかになりました。これらの問題を解決するために、当該二つのデータセットからサンプル削除を行い、再ラベリングと統合を実施しました。さらに、PBCおよびRaabin-WBCデータセットを導入し、最終的に高品質でサンプルバランスが取れた新しいデータセットを作成しました。このデータセットはTXL-PBCと命名され、1008個の訓練用データセット、288個の検証用データセット、144個のテスト用データセットを含んでいます。まず、TXL-PBCデータセットは厳密な手動アノテーション、YOLOv8nモデルによる自動アノテーション、そして手動での審査ステップを経て、アノテーションの正確性と一貫性を確保しました。次に、元のデータセットにおける血液細胞の誤ラベリング問題に対処しました。ラベル境界ボックス面積の分布やラベル数はBCCDおよびBCDデータセットよりも優れています。さらに、YOLOv8nモデルを使用してこれら三つのデータセットを学習させた結果、TXL-PBCデータセットの性能が元の二つのデータセットを上回ることが確認されました。最後に、YOLOv5n, YOLOv5s, YOLOv5l, YOLOv8s, YOLOv8m検出モデルを基準モデルとして採用し、TXL-PBCに対する評価を行いました。本研究は血液細胞データセットの品質向上だけでなく、血液細胞ターゲット検出モデルの改善に取り組む研究者たちにも貢献しています。当社はTXL-PBCデータセットを自由にアクセスできる形で公開しており、詳細は以下のURLからご確認いただけます: https://github.com/lugan113/TXL-PBC_Dataset.