편향된 훈련 데이터로부터 편향되지 않은 장면 그래프 생성

오늘날의 장면 그래프 생성(SGG) 작업은 여전히 실용적 수준에 이르지 못하고 있으며, 주로 심각한 학습 편향 때문입니다. 예를 들어, 다양한 "사람이 해변에서 걷다 / 앉다 / 눕다"가 "사람이 해변 위에 있다"로 축소되는 경우가 있습니다. 이러한 SGG를 주어졌을 때, VQA와 같은 후속 작업은 단순히 객체들의 집합보다 더 나은 장면 구조를 추론하기 어렵습니다. 그러나 SGG에서 편향 제거는 쉽지 않으며, 전통적인 편향 제거 방법들은 좋은 편향과 나쁜 편향을 구분할 수 없습니다. 예를 들어, "사람이 책을 읽다"라는 좋은 맥락 사전 정보와 "먹다"라는 나쁜 장기 꼬리 편향 사이에서 구분하지 못합니다.본 논문에서는 전통적인 가능도가 아닌 인과 추론 기반의 새로운 SGG 프레임워크를 제시합니다. 먼저 SGG를 위한 인과 그래프를 구성하고, 이 그래프를 사용하여 전통적인 편향 학습을 수행합니다. 그런 다음, 학습된 그래프에서 대안적 인과 관계를 추출하여 나쁜 편향의 영향을 추론하고 이를 제거하는 방법을 제안합니다. 특히, 우리는 총 직접 효과(Total Direct Effect, TDE)를 무편향 SGG의 최종 술어 점수로 사용합니다. 본 프레임워크는 어떤 SGG 모델에도 적용 가능하므로, 무편향 예측을 찾고자 하는 커뮤니티에서 널리 활용될 수 있습니다.제안된 Scene Graph Diagnosis 도구킷을 SGG 벤치마크인 Visual Genome와 여러 선도적인 모델에 적용한 결과, 이전 최신 방법들보다 유의미한 개선이 이루어짐을 확인할 수 있었습니다.