KnowZRel: 일반화된 장면 그래프 생성을 위한 공통 지식 기반의 제로샷 관계 검색
시나리오 그래프는 시각적 추론에서 핵심적인 이미지 표현 방식이다. 시나리오 그래프 생성(SGG) 기법의 일반화 능력은 신뢰할 수 있는 추론과 실제 응용 가능성에 있어 매우 중요하다. 그러나 편향된 학습 데이터셋은 이러한 일반화 능력을 제한하며, 의미 있는 시각적 관계가 충분히 반영되지 않는 문제를 야기한다. 기존의 SGG 기법은 외부 지식 소스를 활용하지만, 이러한 데이터 편향 또는 관계 커버리지의 제한으로 인해 추론 및 일반화 능력에 한계를 겪는다. 본 연구에서는 데이터 기반 객체 탐지와 이질적 지식 그래프 기반 객체 정제, 그리고 제로샷 관계 검색을 통합한 새로운 신경심상적(neurosymbolic) 접근법을 제안한다. 이 접근법은 신경망과 심상적 구성 요소 간의 느슨하게 결합된 상호작용을 강조하며, 시나리오 그래프 생성에서 데이터 편향 문제를 해결하고, 미관측 시각적 관계에 대한 효과적인 예측을 가능하게 한다. 객체는 영역 기반의 딥 신경망을 통해 탐지된 후, 위치적 및 구조적 유사성 기반으로 정제되며, 이후 이질적 지식 그래프를 활용해 쌍별 시각적 관계를 검색한다. 관계 레이블과 노드 임베딩의 유사성 기반으로 중복되거나 관련 없는 시각적 관계는 제거된다. 마지막으로, 검색된 시각적 관계들이 상호 연결되어 시나리오 그래프가 생성된다. 사용된 이질적 지식 그래프는 다양한 지식 소스를 통합하여 객체와 그 상호작용에 대한 풍부한 일반 지식을 제공한다. 제안한 방법은 기준 데이터셋인 Visual Genome를 기반으로 제로샷 리콜(zR@K) 지표를 사용하여 평가되었으며, 기존 최첨단 기법 대비 59.96%의 성능 향상을 보였으며, 일반화된 SGG에서의 효과성을 입증하였다. 특히 객체 정제 단계는 객체 탐지 성능을 57.1% 향상시켰다. 추가적으로 GQA 데이터셋을 이용한 평가를 통해 본 방법의 다중 데이터셋 일반화 능력도 확인하였다. 또한 다양한 지식 소스와 임베딩 모델을 비교하여 제로샷 SGG에 최적의 조합을 도출하였다. 소스 코드는 https://github.com/jaleedkhan/zsrr-sgg 에서 공개되어 있다.