12일 전

참조 이미지 세그멘테이션을 위한 양방향 관계 추론 네트워크

{ Huchuan Lu, Lihe Zhang, Jiayu Sun, Guang Feng, Zhiwei Hu}
참조 이미지 세그멘테이션을 위한 양방향 관계 추론 네트워크
초록

기존 대부분의 방법들은 시각과 언어 간의 상호 지침 관계를 명시적으로 형식화하지 않는다. 본 연구에서는 다중 모달 정보 간의 의존성을 모델링하기 위해 양방향 관계 추론 네트워크(BRINet)를 제안한다. 구체적으로, 각 시각적 영역에 대응하는 적응형 언어적 맥락을 학습하기 위해 시각에 기반한 언어적 주의(visual-guided linguistic attention)를 사용한다. 이와 함께 언어에 기반한 시각적 주의를 결합하여, 다중 모달 특징 간의 관계를 학습하는 양방향 다중 모달 주의 모듈(BCAM)을 구성한다. 이를 통해 대상 객체와 참조 표현의 최종 의미적 맥락을 정확하고 일관되게 표현할 수 있다. 더불어, 다수의 레벨 특징을 통합하기 위해 게이트를 이용해 양방향 정보 흐름을 안내하는 게이트형 양방향 융합 모듈(GBFM)을 설계하였다. 네 개의 벤치마크 데이터셋에서 실시한 광범위한 실험을 통해 제안된 방법이 다양한 평가 지표에서 기존 최첨단 기법들을 능가함을 확인하였다.

참조 이미지 세그멘테이션을 위한 양방향 관계 추론 네트워크 | 최신 연구 논문 | HyperAI초신경