17일 전
시각적 특징과 국소적 풀링된 텍스트 특징을 결합한 세밀한 이미지 분류 및 검색
Andres Mafla, Sounak Dey, Ali Furkan Biten, Lluis Gomez, Dimosthenis Karatzas

초록
이미지 내에 포함된 텍스트는 풍부한 고차원 의미 정보를 담고 있으며, 이를 활용함으로써 이미지에 대한 더 깊이 있는 이해를 가능하게 한다. 특히 텍스트의 존재 자체만으로도 이미지 검색, 미세 분류, 시각적 질의 응답과 같은 다양한 컴퓨터 비전 과제를 해결하는 데 강력한 지침 정보를 제공한다. 본 논문에서는 시각적 특징과 함께 텍스트 정보를 활용하여 두 모달 간의 내재적 관계를 이해함으로써 미세 분류 및 이미지 검색 문제를 해결한다. 제안된 모델의 핵심적인 특징은 텍스트의 형태학적 특성을 포착할 수 있는 포시 벡터 인코딩(Fisher Vector Encoding)과 함께 PHOC(Phonetic and Histogram of Characters) 기술을 사용하여 텍스트 단어의 백(bag)을 구성하는 것이다. 이 방법은 본 과제에 대해 더 강력한 다중 모달 표현을 제공하며, 실험 결과에 따르면 미세 분류 및 이미지 검색이라는 두 가지 과제에서 최신 기술 수준(SOTA, State-of-the-Art)의 성능을 달성한다.