16일 전
인간처럼 편향시키기: 장면 그래프 생성을 위한 인지 편향 프레임워크
Xiaoguang Chang, Teng Wang, Changyin Sun, Wenzhe Cai

초록
장면 그래프 생성은 특정 인식 패턴이 존재하지 않기 때문에 복잡한 작업이다. 예를 들어, '보는'과 '근처에 있는' 관계는 시각적으로 뚜렷한 차이가 없으며, 형태가 다른 객체 간에도 '근처에 있는' 관계가 발생할 수 있다. 이러한 이유로 일부 장면 그래프 생성 방법은 시각적 특징의 무작위성과 데이터셋 주석의 미세한 오류로 인해 빈도가 높은 관계 예측에 치우치는 문제에 빠지게 된다. 따라서 최근 연구들은 더 정보성 있는 장면 그래프를 생성하기 위해 예측의 균형을 맞추는 '편향 없는'(unbiased) 접근 방식에 주목하고 있다. 그러나 수많은 객체 간 관계에 대해 인간이 신속하고 정확하게 판단할 수 있는 능력은 순수한 시각에 기반한 것이 아니라, 오히려 경험과 언어 지식이라는 '편향'(bias)에 기인한다. 본 연구는 이러한 '인지적 편향'(cognitive bias) 메커니즘을 영감으로 삼아, 인간이 레이블의 언어적 특징을 시각적 표현의 안내로 활용하는 방식을 모방하는 새로운 3개의 패러다임으로 구성된 프레임워크를 제안한다. 이 프레임워크는 숨겨진 관계 패턴을 보다 효과적으로 탐지하고, 노이즈가 많은 시각적 전파 문제를 완화하는 데 기여한다. 제안하는 프레임워크는 어떤 장면 그래프 모델에도 독립적이며, 종합적인 실험을 통해 기준 모듈 대비 최소한의 파라미터 증가로 여러 지표에서 우수한 성능을 보이며, Visual Genome 데이터셋에서 새로운 최고 성능(SOTA)을 달성하였다.