2달 전
스택형 하이브리드 어텐션과 그룹 협업 학습을 이용한 편향되지 않은 장면 그래프 생성
Xingning Dong; Tian Gan; Xuemeng Song; Jianlong Wu; Yuan Cheng; Liqiang Nie

초록
장면 그래프 생성(Scene Graph Generation)은 일반적으로 인코더-디코더 파이프라인을 따르며, 주어진 이미지 내의 시각적 내용을 먼저 인코딩한 후 이를 간결한 요약 그래프로 구문 분석하는 것을 목표로 합니다. 기존의 SGG 접근 방식은 일반적으로 시각과 언어 사이의 모달리티 융합 부족을 무시할 뿐만 아니라, 편향된 관계 예측으로 인해 정보가 부족한 술어를 제공하지 못하여, SGG가 실제 적용에 멀리 떨어져 있습니다. 이에 따라 본 논문에서는 첫째, 모달리티 내 정교화와 모달리티 간 상호작용을 촉진하는 새로운 스택형 하이브리드 어텐션 네트워크(Stacked Hybrid-Attention network)를 제안하여 인코더로서 활용합니다. 둘째, 디코더 최적화를 위한 혁신적인 그룹 협력 학습 전략(Group Collaborative Learning strategy)을 설계합니다. 특히, 한 분류기의 인식 능력이 극도로 불균형한 데이터셋에 대해 제한적이라는 점을 고려하여, 먼저 다양한 클래스 집합을 구분하는데 전문적인 여러 분류기를 배치하고, 두 가지 측면에서 협력적으로 최적화하여 편향되지 않은 SGG를 촉진합니다. VG 및 GQA 데이터셋에서 수행된 실험 결과는 우리 접근 방식이 편향되지 않은 지표에서 새로운 최고 수준(SOTA)을 달성하였으며, 두 베이스라인과 비교하여 성능이 거의 두 배 가까이 향상됨을 보여줍니다.