15일 전

3SHNet: 시각적 의미-공간 자기강조를 통한 이미지-문장 검색 성능 향상

Xuri Ge, Songpei Xu, Fuhai Chen, Jie Wang, Guoxin Wang, Shan An, Joemon M. Jose
3SHNet: 시각적 의미-공간 자기강조를 통한 이미지-문장 검색 성능 향상
초록

본 논문에서는 고정밀도, 고효율성, 고일반화성을 갖춘 이미지-문장 검색을 위한 새로운 시각적 의미-공간 자기강조 네트워크(이하 3SHNet)를 제안한다. 3SHNet은 시각 모달리티 내에서 두드러진 객체의 주목할 만한 식별성과 그들의 공간적 위치를 강조함으로써, 시각적 의미-공간 상호작용을 통합하면서도 두 모달리티 간의 독립성을 유지한다. 이러한 통합은 세그멘테이션을 통해 도출된 객체 영역과 해당하는 의미적 구성 및 위치 레이아웃을 효과적으로 결합함으로써 시각적 표현을 강화한다. 또한 모달리티 독립성은 효율성과 일반화 능력을 보장한다. 더불어 3SHNet은 세그멘테이션을 통해 얻은 구조화된 맥락적 시각적 장면 정보를 활용하여 지역적(영역 기반) 또는 전역적(그리드 기반) 안내를 수행함으로써 정확한 하이브리드 수준의 검색을 달성한다. MS-COCO 및 Flickr30K 벤치마크에서 수행된 광범위한 실험을 통해 제안된 3SHNet이 현존하는 최첨단 기법들과 비교하여 우수한 성능, 빠른 추론 효율성, 그리고 뛰어난 일반화 능력을 입증하였다. 특히 더 큰 MS-COCO 5K 테스트 세트에서, 다양한 이미지 표현 방식을 사용하는 최첨단 기법들과 비교해 rSum 점수에서 각각 16.3%, 24.8%, 18.3%의 성능 향상을 달성하였으며, 최적의 검색 효율성을 유지하였다. 또한 교차 데이터셋 일반화 성능은 18.6% 향상되었다. 데이터 및 코드는 https://github.com/XuriGe1995/3SHNet 에서 제공된다.

3SHNet: 시각적 의미-공간 자기강조를 통한 이미지-문장 검색 성능 향상 | 최신 연구 논문 | HyperAI초신경