16일 전

NeuSyRE: 장면 그래프 강화 기반의 신경-심볼릭 시각적 이해 및 추론 프레임워크

{Edward Curry, John Breslin, M. Jaleed Khan}
초록

신경-심볼릭 혼합적 접근 방식은 시각적 장면에 대한 원활한 고수준 이해 및 추론을 위해 불가피하다. 장면 그래프 생성(Scene Graph Generation, SGG)은 깊은 신경망(DNN) 기반의 심볼릭 이미지 표현 방식으로, 이미지 내 객체, 그들의 속성, 그리고 쌍별 시각적 관계를 예측하여 장면 그래프를 생성하는 기술로, 후속 시각적 추론 작업에 활용된다. 그러나 SGG에서 사용하는 커뮤니티 기반의 학습 데이터셋은 매우 불균형한 분포를 보이며, 이로 인해 SGG 결과에 편향이 발생한다. 가능한 삼중조(triplet)의 수가 막대하기 때문에, 모든 시각적 개념이나 관계에 대해 충분한 학습 샘플을 수집하는 것은 매우 어렵다. 이러한 문제를 해결하기 위해, 본 연구에서는 전통적인 데이터 기반 SGG 접근 방식에 일반적 지식(common sense knowledge)을 보완함으로써 시각적 이해 및 추론의 표현력과 자율성을 향상시키는 방안을 제안한다. 우리는 DNN 기반의 객체 탐지 및 다중 모달 쌍별 관계 예측 파이프라인을 활용하여 장면 그래프를 생성하고, 이 과정에서 이질적 지식 그래프(heterogeneous knowledge graphs)에 포함된 일반적 지식을 활용하여 장면 그래프를 풍부하게 하는 느슨하게 결합된 신경-심볼릭 시각적 이해 및 추론 프레임워크를 제안한다. 제안된 방법은 Visual Genome 및 Microsoft COCO와 같은 여러 표준 데이터셋에서 종합적인 평가를 수행하였으며, 관계 재현률(recall) 지표인 Recall@K 및 mean Recall@K에서 최첨단 SGG 기법들을 초월하는 성능을 보였다. 또한, 장면 그래프 기반 이미지 캡셔닝(이미지 설명 생성)에 있어서는 SPICE 및 CIDEr 점수에서 최신 기법들을 능가하면서, BLEU, ROGUE, METEOR 점수는 유사한 수준을 유지하였다. 풍부화된 장면 그래프는 정성적 평가에서도 더 풍부하고 직관적이며 의미 있는 캡셔닝 생성을 가능하게 하였다. 본 연구 결과는 이질적 지식 그래프를 활용하여 장면 그래프에 일반적 지식을 보강하는 것이 효과적임을 입증하였으며, 향후 지식 강화 시각적 이해 및 추론 연구를 위한 기초적인 기반을 제공한다.

NeuSyRE: 장면 그래프 강화 기반의 신경-심볼릭 시각적 이해 및 추론 프레임워크 | 최신 연구 논문 | HyperAI초신경