CogTree: 인지 트리 손실을 이용한 편향되지 않은 장면 그래프 생성

장면 그래프는 이미지의 의미적 추상화로 시각적 이해와 추론을 촉진합니다. 그러나 실제 상황에서 편향된 데이터를 처리할 때 장면 그래프 생성(Scene Graph Generation, SGG)의 성능은 만족스럽지 않습니다. 기존의 편향 제거 연구는 주로 데이터 분포 균형이나 편향되지 않은 모델과 표현 학습의 관점에서 이루어졌지만, 편향된 클래스들 간의 상관관계를 무시했습니다. 본 연구에서는 이러한 문제를 새로운 인식 관점에서 분석하였습니다: 편향된 예측으로부터 계층적인 인식 구조를 자동으로 구축하고, 그 계층을 탐색하여 관계를 찾음으로써, 세부적으로 접근하는 방식으로 꼬리 관계에 더 많은 주목을 받게 합니다. 이를 위해 우리는 편향되지 않은 SGG를 위한 새로운 인식 트리(Cognition Tree, CogTree) 손실 함수를 제안합니다. 먼저, 편향된 SGG 모델의 예측을 바탕으로 관계들을 조직화하는 인식 구조인 CogTree를 구축합니다. CogTree는 처음에는 크게 다른 관계들을 구분한 후, 혼동하기 쉬운 일부 작은 부분에 집중합니다. 그런 다음, 이 인식 구조에 특화된 새로운 편향 제거 손실 함수를 제안하는데, 이 손실 함수는 올바른 관계에 대한 거시적에서 미시적인 구분을 지원합니다. 이 손실 함수는 모델 독립적이며 여러 최신 모델들의 성능을 일관되게 개선시킵니다. 코드는 다음과 같은 주소에서 제공됩니다: https://github.com/CYVincent/Scene-Graph-Transformer-CogTree.