그래포노미: 그래프 추론과 전이를 통한 유니버설 이미지 파싱

이전의 고도로 최적화된 이미지 파싱 모델은 일반적으로 특정 도메인 내에서 고정된 의미적 레이블 세트를 기반으로 연구되며, 다른 시나리오(예: 레이블의 세분화 수준이 다를 경우)로 적응시키기 위해 광범위한 재학습이 필요하다는 한계가 있다. 다양한 도메인 또는 다양한 세분화 수준의 레이블 어노테이션을 통합하여 하나의 보편적인 파싱 모델을 학습하는 것은 핵심적이지만 여전히 거의 다뤄지지 않은 주제이다. 이는 다양한 레이블 세분화 수준 간의 잠재적 의미 구조 탐색이나 관련 작업 간의 레이블 상관관계 탐지와 같은 여러 근본적인 학습 도전 과제를 수반한다. 이러한 문제를 해결하기 위해, 우리는 지역적 합성곱을 넘어서 중간 그래프 표현 학습에 인간 지식과 레이블 계층 구조를 통합한 그래프 추론 및 전이 학습 프레임워크인 ‘Graphonomy’을 제안한다. 특히 Graphonomy는 의미 인식 그래프 추론과 전이를 통해 다중 도메인 간의 전역적이고 구조화된 의미 일관성을 학습함으로써, 도메인 간 파싱 작업 간 상호 보완적 이점을 강화한다(예: 서로 다른 데이터셋 또는 관련된 작업들 간). Graphonomy는 두 가지 반복적 모듈로 구성된다: 내부 그래프 추론(Intra-Graph Reasoning) 모듈과 외부 그래프 전이(Inter-Graph Transfer) 모듈이다. 전자는 각 도메인 내에서 의미 그래프를 추출하여 그래프를 통해 정보를 전파함으로써 특징 표현 학습을 개선하고, 후자는 서로 다른 도메인의 그래프 간 의존성을 활용하여 양방향 지식 전이를 실현한다. 우리는 Graphonomy을 인간 파싱(human parsing)과 팔레오틱 세그멘테이션(panoptic segmentation)이라는 관련되지만 서로 다른 이미지 이해 연구 주제에 적용하였으며, 기존 최신 기술 대비 표준 파이프라인을 통해 두 작업 모두에서 우수한 성능을 보여주었다. 또한 본 프레임워크의 추가적인 이점도 입증되었으며, 예를 들어 다양한 데이터셋 간 어노테이션을 통합함으로써 인간 파싱을 다양한 세분화 수준에서 생성할 수 있다는 점을 확인하였다.