흉부 X선 영상에서 흉부 질환의 긴 꼬리 분류: 새로운 벤치마크 연구

흉부 방사선 촬영과 같은 영상 검사에서는 일반적인 소견의 작은 집합과 희귀한 소견의 훨씬 더 큰 집합이 나타납니다. 숙련된 영상의학과 전문의는 몇 가지 대표적인 예를 통해 희귀 질환의 시각적 특징을 학습할 수 있지만, 이러한 '긴 꼬리(long-tailed)' 분포에서 학습하도록 기계를 가르치는 것은 훨씬 더 어렵습니다. 표준 학습 방법은 흔한 클래스에 쉽게 편향되기 때문입니다. 본 논문에서는 흉부 X선 영상에서 흉부 질환 분야에 특화된 긴 꼬리 학습 문제에 대한 종합적인 벤치마크 연구를 제시합니다. 우리는 자연스럽게 분포된 흉부 X선 데이터로부터 학습에 초점을 맞추며, 흔한 '머리(head)' 클래스뿐만 아니라 희귀하지만 매우 중요한 '꼬리(tail)' 클래스에 대한 분류 정확도도 최적화하고자 합니다. 이를 위해, 긴 꼬리 학습 방법을 개발하기 위한 연구를 촉진할 수 있도록 도전적인 새로운 긴 꼬리 흉부 X선 벤치마크를 제안합니다. 이 벤치마크는 19개 및 20개 클래스로 구성된 흉부 질환 분류를 위한 두 가지 흉부 X선 데이터셋으로 구성되며, 학습 데이터로 최대 53,000개, 최소 7개의 레이블이 부여된 클래스를 포함합니다. 우리는 이 새로운 벤치마크에서 표준 및 최신 긴 꼬리 학습 방법을 평가하여, 이러한 방법들 중 어떤 요소가 긴 꼬리 의료 영상 분류에 가장 유익한지 분석하고, 향후 알고리즘 설계를 위한 통찰을 정리합니다. 데이터셋, 학습된 모델, 코드는 https://github.com/VITA-Group/LongTailCXR 에 공개되어 있습니다.