Label2Label: 다중 속성 학습을 위한 언어 모델링 프레임워크

물체는 일반적으로 여러 속성과 연관되며, 이러한 속성들은 종종 높은 상관관계를 보입니다. 속성 간의 복잡한 관계를 모델링하는 것은 다중 속성 학습에 큰 도전이 됩니다. 본 논문에서는 이러한 복잡한 속성 상관관계를 활용하기 위한 간단하면서도 일반적인 프레임워크인 Label2Label을 제안합니다. Label2Label은 언어 모델링의 관점에서 다중 속성 예측을 시도하는 첫 번째 연구입니다. 구체적으로, 각 속성 라벨을 샘플을 설명하는 "단어"로 취급합니다. 각 샘플은 여러 개의 속성 라벨로 주석이 달려 있으므로, 이 "단어"들은 자연스럽게 순서가 없지만 의미 있는 "문장"을 형성하게 되며, 이는 해당 샘플의 의미 정보를 묘사합니다. 자연어 처리(NLP) 분야에서 사전 훈련된 언어 모델의 뛰어난 성공에 영감을 받아, Label2Label은 이미지 조건부 마스크 언어 모델을 도입하였습니다. 이 모델은 라벨 "문장"에서 일부 "단어" 토큰을 무작위로 마스킹하고, 마스킹된 "문장"과 이미지 특징이 전달하는 맥락을 기반으로 이를 복원하는 것을 목표로 합니다. 우리의 직관은 신경망이 맥락과 남아 있는 속성 힌트를 바탕으로 누락된 속성을 추론할 수 있다면, 인스턴스별 속성 관계가 잘 파악되었다는 것입니다. Label2Label은 개념적으로 단순하지만 경험적으로 강력합니다. 태스크 특유의 선행 지식이나 고도로 전문화된 네트워크 설계를 포함하지 않음에도 불구하고, 우리의 접근법은 고도로 맞춤화된 영역별 방법들과 비교하여 세 가지 다른 다중 속성 학습 태스크에서 최고 수준의 결과를 달성하였습니다. 코드는 https://github.com/Li-Wanhua/Label2Label에서 확인할 수 있습니다.