편향된 장면 그래프에서 편향되지 않은 장면 그래프를 복원하기

주어진 입력 이미지를 기반으로 장면 그래프 생성(Scene Graph Generation, SGG)은 주요 객체들 사이의 시각적 관계를 설명하는 포괄적인 그래픽 표현을 생성하는 것을 목표로 합니다. 최근에는 SGG에서의 긴 꼬리 문제에 더 많은 관심이 집중되고 있지만, 다른 클래스들의 라벨 부족 비율의 불균형이나 보고 편향(reporting bias)이 긴 꼬리를 악화시키는 문제는 거의 고려되지 않았으며, 기존의 편향 제거 방법으로 해결하기 어렵습니다. 본 논문에서는 라벨 부족 때문에 SGG가 "긍정 및 미라벨링 데이터 학습" (Learning from Positive and Unlabeled data, PU 학습) 문제로 간주될 수 있음을 보여주며, 모든 양성 예제 중 각 클래스별로 라벨이 부착된 양성 예제의 비율인 라벨 빈도를 활용하여 편향된 확률로부터 비편향 확률을 복원함으로써 보고 편향을 제거할 수 있습니다. 정확한 라벨 빈도 추정 값을 얻기 위해 우리는 훈련 시간 데이터 증강을 활용하고 여러 훈련 반복 과정에서 평균을 구해 더 유효한 예제를 도입하는 Dynamic Label Frequency Estimation (DLFE) 방법을 제안합니다. 광범위한 실험 결과, DLFE는 전통적인 추정 방법의 단순 변형보다 라벨 빈도를 추정하는 데 더 효과적이며, VG 데이터셋에서 긴 꼬리를 크게 완화시켜 최신의 편향 제거 성능을 달성하였습니다. 또한 질적으로 SGG 모델이 DLFE를 사용할 때 명백히 더 균형 잡히고 편향되지 않은 장면 그래프를 생성한다는 점을 보여줍니다.