바운딩 박스 주석을 활용한 다중 라벨 객체 인식

컨벌루션 신경망(CNNs)은 객체 인식 응용 분야에서 일반적인 특징 표현으로 뛰어난 성능을 보여주었습니다. 그러나 여러 범주, 크기 및 위치의 다양한 객체를 포함하는 다중 라벨 이미지에 대해서는 전역 CNN 특징이 최적이 아닙니다. 본 논문에서는 로컬 정보를 통합하여 특징의 구분력을 향상시키는 방법을 제안합니다. 특히, 먼저 각 이미지에서 객체 제안(object proposals)을 추출합니다. 각 이미지를 가방(bag)으로 regarding하고 해당 이미지에서 추출된 객체 제안들을 인스턴스(instance)로 treating함으로써, 다중 라벨 인식 문제를 다중 클래스 다중 인스턴스 학습 문제로 변환합니다. 그런 다음, 각 제안에서 일반적인 CNN 특징 표현을 추출하는 것 외에도, 로컬 영역 간의 최근접 이웃 관계(nearest-neighbor relationships)를 이용하여 강한 라벨(strong labels)인 지면 진실 바운딩 박스 주석(ground-truth bounding box annotations)을 활용하여 다중 시점 파이프라인(multi-view pipeline)을 형성하는 방법을 제안합니다. 제안된 다중 시점 다중 인스턴스 프레임워크는 약한 라벨과 강한 라벨을 효과적으로 활용하며, 더욱 중요한 것은 다른 범주에서 부분적으로 강한 라벨을 사용하여 미처 본 적 없는 범주의 성능까지 향상시킬 수 있는 일반화 능력을 가지고 있다는 점입니다. 우리의 프레임워크는 두 개의 다중 라벨 벤치마크 데이터셋에서 기존의 수작업 특징 기반 방법들과 CNN 기반 방법들과 광범위하게 비교되었습니다. 실험 결과는 제안된 프레임워크의 구분력과 일반화 능력을 검증하였습니다. 강한 라벨이 있는 경우, 우리의 프레임워크는 두 데이터셋 모두에서 최신 연구 결과와 견줄 만한 성능을 달성할 수 있었습니다.