7일 전

반복 레이블을 가진 객체 탐지에서 노이즈 있는 어노테이션 대응하기: 같은 경계 상자 두 번 그리기?

David Tschirschwitz, Christian Benz, Morris Florek, Henrik Norderhus, Benno Stein, Volker Rodehorst
반복 레이블을 가진 객체 탐지에서 노이즈 있는 어노테이션 대응하기: 같은 경계 상자 두 번 그리기?
초록

감독 학습 기반 기계 학습 시스템의 신뢰성은 참값 레이블(ground truth labels)의 정확성과 가용성에 크게 의존한다. 그러나 인간의 레이블링 과정은 오류 발생 가능성이 높아 노이즈가 포함된 레이블이 생길 수 있으며, 이는 이러한 시스템의 실용성에 악영향을 미칠 수 있다. 노이즈 레이블을 활용한 학습은 중요한 고려사항이지만, 테스트 데이터의 신뢰성 역시 결과의 신뢰도를 판단하는 데 핵심적인 요소이다. 이 문제를 해결하기 위한 일반적인 접근 방식은 반복 레이블링(repeated labeling)으로, 동일한 예시에 대해 여러 명의 레이블러가 레이블을 부여하고, 그들의 레이블을 통합하여 진정한 레이블에 대한 보다 정확한 추정치를 도출하는 방식이다. 본 논문에서는 객체 탐지 및 인스턴스 세그멘테이션 작업에 대해 잘 알려진 참값 추정 기법을 적응시킨 새로운 국소화 알고리즘을 제안한다. 본 방법의 핵심 혁신은 국소화와 분류를 동시에 수행하는 문제를 분류만을 포함하는 문제로 변환할 수 있다는 점에 있다. 이를 통해 기대값 최대화(Expectation-Maximization, EM) 또는 다수결 투표(Majority Voting, MJV)와 같은 기법을 적용할 수 있게 된다. 본 연구의 주요 목적은 테스트 데이터에 대해 고유한 참값을 집계하는 데 있지만, TexBiG 데이터셋에서의 학습 과정에서도 본 알고리즘이 노이즈 레이블 학습 및 가중 상자 융합(Weighted Boxes Fusion, WBF)을 활용한 레이블 집계 방법을 모두 상회하는 뛰어난 성능을 보였다. 실험 결과에 따르면, 반복 레이블링의 이점은 특정 데이터셋 및 레이블링 구성 조건 하에서만 나타나는 것으로 나타났다. 이러한 이점이 나타나는 주요 요인은 (1) 데이터셋의 복잡성, (2) 레이블러 간 일관성, 그리고 (3) 제공된 레이블링 예산 제약 조건으로 판단된다.

반복 레이블을 가진 객체 탐지에서 노이즈 있는 어노테이션 대응하기: 같은 경계 상자 두 번 그리기? | 최신 연구 논문 | HyperAI초신경