
시각-의미 임베딩(VSE)은 이미지와 텍스트 모달 간의 공통 임베딩 공간을 학습함으로써 의미적 유사성을 유지하는 방식으로 이미지-텍스트 검색에서 널리 사용되는 접근법이다. 대부분의 VSE 방법에서 삼중항 손실(Triplet loss)과 하드 네거티브 마이닝(Hard-negative mining)은 사실상의 목적함수로 자리 잡았다. 최근 이미지 영역에서의 딥 메트릭 학습(DML)의 발전은 기존 삼중항 손실을 능가하는 새로운 손실 함수의 등장을 이끌었으며, 본 논문에서는 이러한 성과를 바탕으로 이미지-텍스트 매칭을 위한 보다 우수한 목적함수를 탐색하는 문제를 다시 조명한다. 기존의 기울기 이동 기반 손실 설계 시도가 일부 존재하지만, 대부분의 DML 손실은 임베딩 공간에서 경험적으로 정의된다. 이러한 손실 함수를 직접 적용할 경우 모델 파라미터에 대한 최적의 기울기 업데이트가 보장되지 않을 수 있으므로, 본 논문에서는 기존 DML 함수들의 기울기 조합과 재가중화를 체계적으로 분석하기 위한 새로운 기반 기반 목적함수 분석 프레임워크인 \textit{GOAL}(Gradient-based Objective AnaLysis)을 제안한다. 이 분석 프레임워크를 활용하여, 기울기 공간에서 다양한 기울기 조합을 탐색하는 새로운 목적함수 계열을 제안한다. 특히 기울기가 유효한 손실 함수로 통합되지 않는 경우, 본 연구는 이러한 목적함수를 임베딩 공간의 손실이 아닌 기울기 공간에서 직접 작동하도록 구현한다. 광범위한 실험을 통해 제안하는 새로운 목적함수가 다양한 시각/텍스트 특징 및 모델 아키텍처에서 기준 모델 대비 일관되게 성능 향상을 보였음을 입증하였다. 또한 GOAL 프레임워크의 일반화 가능성을 검증하기 위해, 삼중항 계열 손실을 사용하는 다른 모델, 특히 다중 모달 간 강한 상호작용을 가지는 비전-언어 모델에 프레임워크를 확장하였으며, COCO 및 Flick30K 데이터셋에서 이미지-텍스트 검색 태스크에서 최신 기준(SOTA) 성능을 달성하였다.