일반 지식 주입을 통한 표현력 있는 장면 그래프 생성: 시각적 이해 및 추론을 위한 접근
시나리오 그래프 생성은 이미지 내의 의미적 요소를 객체와 그 관계를 구조적으로 모델링함으로써 시각적 이해 및 추론 작업(이미지 설명 생성, 시각적 질문 응답, 멀티미디어 이벤트 처리, 시각적 스토리텔링, 이미지 검색 등)에 필수적인 정보를 포착하는 것을 목표로 한다. 기존의 시나리오 그래프 생성 기법은 고차원의 시각적 이해 및 추론을 위한 성능과 표현력 측면에서 한계를 보이고 있다. 이러한 도전 과제는 시나리오 그래프 내 의미적 요소에 대한 일반적인 지식(예: 관련 사실, 배경 지식 등)을 활용함으로써 완화될 수 있다. 본 논문에서는 일곱 개의 서로 다른 지식 기반에서 통합된 일반 지식을 포함하는 이질적 지식 소스를 활용하여 시나리오 그래프 내 의미적 요소에 대한 다양한 일반 지식을 융합함으로써 풍부하고 표현력 있는 시나리오 그래프를 생성하는 방법을 제안한다. 객체 노드의 그래프 임베딩을 활용하여 지식 소스 내 구조적 패턴을 활용하여 그래프 정제 및 확장에 필요한 유사도 지표를 계산한다. 기준 데이터셋인 Visual Genome에서 실험 및 비교 분석을 수행한 결과, 제안한 방법은 기존 최고 성능 기법보다 더 높은 재현율을 달성하였으며, K = 20, 50, 100일 때 각각 R@K = 29.89, 35.4, 39.12의 성능을 기록한 반면, 기존 기법은 각각 R@K = 25.8, 33.3, 37.8을 기록하였다. 이미지 생성과 같은 하류 작업에서 제안한 방법의 정성적 결과는 일반 지식 기반 시나리오 그래프를 활용할 경우 보다 현실적인 이미지가 생성됨을 보여주었다. 이러한 결과는 일반 지식의 융합이 시각적 이해 및 추론 작업을 위한 시나리오 그래프 생성의 성능과 표현력을 향상시키는 데 효과적임을 입증한다.