절약형 레이블러를 위한 방법: 이질적 레이블을 활용한 다중 클래스 의미 세그멘테이션

딥러닝은 생물의학 연구에서 점점 더 빠르게 발전하고 있으며, 이미지 분류, 객체 탐지, 의미 세분화와 같은 다양한 작업에 신경망을 활용하고 있다. 그러나 일반적으로 신경망은 대규모의 레이블이 붙은 데이터셋을 기반으로 지도 학습으로 훈련된다. 이러한 전제 조건은 생물의학 이미지 인식 분야에서 문제를 야기한다. 왜냐하면 생물의학 데이터셋은 일반적으로 규모가 작고, 확보하기 어렵고, 레이블링에 비용이 많이 들며, 레이블이 종종 비균일하게 부여되기 때문이다. 더불어, 비균일한 레이블은 지도 학습 방법에 있어 큰 도전 과제가 된다. 개별 샘플에 대해 모든 클래스가 레이블링되지 않은 경우, 지도형 딥러닝 접근법은 각 샘플에 공통적으로 존재하는 레이블만을 기반으로 학습이 가능할 뿐이며, 이로 인해 생물의학 이미지 인식 분야의 연구자들은 레이블 및 진실값(ground truth) 요구사항에 대해 매우 신중해야 한다. 본 논문은 효율적인 레이블링의 영향을 분석하고, 새로운 목적 함수를 기반으로 비균일하게 레이블링된 데이터에 대해 다중 클래스 의미 세분화를 위한 신경망을 훈련하는 방법을 제안한다. 이 목적 함수는 클래스 비대칭 손실(class asymmetric loss)과 디스 손실(Dice loss)을 결합한 것으로, 비균일한 레이블링된 데이터셋의 희박한 진실값(sparse ground truth)에 기반한 훈련, 전이 학습(transfer learning) 환경 내에서의 훈련, 그리고 여러 비균일 레이블링된 데이터셋을 통합하는 사례에 대해 각각 검증되었다. 이를 위해 생물의학 분야에서 소규모이면서 다중 클래스 의미 세분화를 위한 데이터셋인 heartSeg 데이터셋을 활용하였다. heartSeg 데이터셋은 심장 모델 시스템으로서 메다카 물고기(meada fish)의 위치를 기반으로 하고 있다. 이미지 인식 및 의미 세분화의 자동화는 고처리량 실험을 가능하게 하며, 생물의학 연구에 있어 필수적인 요소이다. 본 연구의 제안 방법과 분석 결과는 지도 학습 환경에서도 경쟁력 있는 성능을 보였으며, 생물의학 이미지 인식 분야에서 효율적인 레이블링 전략의 도입을 촉진한다.