Panoptic Scene Graph Generation 파노프틱 장면 그래프 생성

기존 연구는 이미지에서 장면 이해의 핵심 기술인 장면 그래프 생성(Scene Graph Generation, SGG)을 탐지 관점에서 다루고 있습니다. 즉, 객체를 경계 상자(bounding boxes)를 사용하여 탐지한 후, 이들의 쌍별 관계를 예측하는 방식입니다. 우리는 이러한 패러다임이 분야의 발전을 저해하는 여러 문제를 야기한다고 주장합니다. 예를 들어, 현재 데이터셋의 경계 상자 기반 라벨은 털(hairs)과 같은 불필요한 클래스를 포함하고 있으며, 맥락 이해에 중요한 배경 정보가 누락되어 있습니다.본 연구에서는 팬오라믹 세그멘테이션(panoptic segmentation)을 기반으로 하는 보다 포괄적인 장면 그래프 표현을 생성하도록 요구하는 새로운 문제 과제인 팬오라믹 장면 그래프 생성(Panoptic Scene Graph Generation, PSG)을 소개합니다. 커뮤니티가 이 분야의 발전을 추적할 수 있도록 COCO와 Visual Genome에서 49,000장의 잘 주석 처리된 중복 이미지를 포함하는 고품질 PSG 데이터셋을 생성했습니다.벤치마킹을 위해 우리는 SGG의 전통적인 방법들을 수정하여 네 가지 두 단계 베이스라인과 DETR(Detection Transformer) 기반 효율적인 검출기를 활용한 두 가지 한 단계 베이스라인인 PSGTR 및 PSGFormer를 구축했습니다. PSGTR은 쿼리(query) 집합을 사용하여 트리플렛(triplets)을 직접 학습하지만, PSGFormer는 두 개의 Transformer 디코더(decoders)에서 쿼리를 통해 객체와 관계를 별도로 모델링한 후, 프롬프팅(prompting)-유사한 관계-객체 매칭 메커니즘을 적용합니다.마지막으로, 우리는 열린 도전 과제와 미래 방향에 대한 통찰력을 공유합니다.