2달 전
데이터 전송을 활용한 세부 장면 그래프 생성
Ao Zhang; Yuan Yao; Qianyu Chen; Wei Ji; Zhiyuan Liu; Maosong Sun; Tat-Seng Chua

초록
장면 그래프 생성(Scene Graph Generation, SGG)은 이미지에서 (주체, 관계사, 객체) 트리플을 추출하도록 설계되었습니다. 최근 연구들은 SGG 분야에서 꾸준한 진전을 이루어냈으며, 고차원 시각 및 언어 이해에 유용한 도구를 제공하고 있습니다. 그러나 데이터 분포 문제(예: 긴 꼬리 분포, 의미상의 모호성)로 인해 현재의 SGG 모델 예측이 몇 가지 빈도가 높지만 정보량이 적은 관계사(예: on, at)로 쏠리는 경향이 있어, 이는 이러한 모델들이 후속 작업에서 실질적으로 활용되는 것을 제한하고 있습니다. 이러한 문제들을 해결하기 위해, 우리는 플러그 앤드 플레이 방식으로 적용할 수 있으며 1,807개의 관계사 클래스를 가진 큰 SGG로 확장 가능한 새로운 내부 및 외부 데이터 전송(Internal and External Data Transfer, IETrans) 방법을 제안합니다. 우리의 IETrans는 자동으로 강화된 데이터셋을 생성하여 모든 관계사에 대해 더 충분하고 일관된 주석을 제공함으로써 데이터 분포 문제를 완화하려고 합니다. 강화된 데이터셋에서 학습함으로써 Neural Motif 모델은 거시적인 성능이 두 배로 향상되면서 미시적인 성능도 경쟁력을 유지합니다. 코드와 데이터는 공개적으로 이용 가능하며, 다음 링크에서 확인할 수 있습니다: https://github.com/waxnkw/IETrans-SGG.pytorch.