HiLo: 고주파 및 저주파 관계를 활용한 편향되지 않은 파노라마 장면 그래프 생성

Panoptic Scene Graph 생성(Panoptic Scene Graph generation, PSG)은 이미지 장면 이해에서 최근 제안된 과제로, 이미지를 분할하고 주체(subjects), 객체(objects) 및 그 관계(relations)의 삼중항(triplets)을 추출하여 장면 그래프를 구축하는 것을 목표로 합니다. 이 과제는 두 가지 이유로 특히 어려움을 겪고 있습니다. 첫째, 관계 카테고리에서 긴 꼬리(long-tail) 문제가 발생하여 단순한 편향 방법이 빈도가 높은 관계에 더 기울어집니다. 기존의 편향되지 않은 방법들은 데이터/손실 재균형(data/loss rebalancing)을 통해 빈도가 낮은 관계를 우대함으로써 긴 꼬리 문제를 해결합니다. 둘째, 주체-객체 쌍은 두 개 이상의 의미적으로 중복되는 관계를 가질 수 있습니다. 기존 방법들은 이러한 중복된 관계들 중 하나를 선호하지만, 제안된 HiLo 프레임워크는 다른 네트워크 분기(branch)들이 빈도가 낮은 관계와 빈도가 높은 관계에 특화되도록 하며, 일관성을 유지하고 결과를 융합합니다. 최선의 지식으로는 우리는 처음으로 명시적으로 편향되지 않은 PSG 방법을 제안하였습니다. 광범위한 실험을 통해 HiLo 프레임워크가 PSG 과제에서 최신 연구 결과(state-of-the-art results)를 달성함을 보였습니다. 또한 우리의 방법을 마스크 대신 박스(box)를 예측하는 Scene Graph Generation 과제에 적용하여 모든 베이스라인(base) 방법보다 개선됨을 확인하였습니다. 코드는 https://github.com/franciszzj/HiLo에서 제공됩니다.