부분 라벨을 사용한 다중 라벨 이미지 인식을 위한 의미 인식 표현 혼합

부분 라벨을 사용하여 다중 라벨 이미지 인식 모델을 훈련시키는 것은 각 이미지에 대해 일부 라벨만 알려져 있고 다른 라벨은 알려져 있지 않은 상황에서 상당히 도전적이고 실용적인 작업입니다. 이 문제를 해결하기 위해, 현재 알고리즘들은 주로 사전 훈련된 분류 모델이나 유사성 모델을 사용하여 알려지지 않은 라벨에 대한 가짜 라벨(pseudo labels)을 생성합니다. 그러나 이러한 알고리즘들은 충분한 다중 라벨 주석이 필요하며, 특히 알려진 라벨의 비율이 낮은 경우 성능이 저하됩니다.본 연구에서는 알려진 라벨의 정보를 활용하여 알려지지 않은 라벨을 보완하기 위해 다른 이미지들 간의 카테고리별 표현(category-specific representation)을 혼합하는 방법을 제안합니다. 이를 통해 사전 훈련 모델에 의존하지 않고, 따라서 충분한 주석에 의존하지 않는 방식으로 문제를 해결할 수 있습니다. 이를 위해 우리는 인스턴스 수준과 프로토타입 수준의 의미 표현(semantic representation)을 활용하여 두 개의 보완 모듈로 알려지지 않은 라벨을 보완하는 통합된 의미 인식 표현 혼합(Semantic-Aware Representation Blending, SARB) 프레임워크를 설계하였습니다.1) 인스턴스 수준 표현 혼합(Instance-Level Representation Blending, ILRB) 모듈은 한 이미지에서 알려진 라벨의 표현을 다른 이미지에서 알려지지 않은 라블의 표현과 혼합하여 이들 알려지지 않은 라벨을 보완합니다.2) 프로토타입 수준 표현 혼합(Prototype-Level Representation Blending, PLRB) 모듈은 각 카테고리에 대해 더 안정적인 표현 프로토타입을 학습하고, 해당 라벨의 프로토타입과 알려지지 않은 라벨의 표현을 혼합하여 이들 라벨을 보완합니다.MS-COCO, Visual Genome, Pascal VOC 2007 데이터셋에서 수행된 광범위한 실험 결과, 제안된 SARB 프레임워크는 모든 알려진 라벨 비율 설정에서 현재 선두 경쟁자들보다 우수한 성능을 나타냈습니다. 특히, 알려진 라벨 비율이 10%일 때 세 데이터셋에서 각각 mAP(median Average Precision)가 4.6%, 4.0%, 2.2% 개선되었습니다. 코드는 https://github.com/HCPLab-SYSU/HCP-MLR-PL 에서 제공됩니다.