18일 전
대규모 시각적 폰트 인식
{Eli Shechtman, Tony X. Han, Aseem Agarwala, Jianchao Yang, Hailin Jin, Guang Chen, Jonathan Brandt}

초록
이 논문은 이미지 또는 사진 내 텍스트의 서체, 굵기, 기울기를 내용에 대한 사전 지식 없이 자동으로 식별하는 대규모 시각적 서체 인식(VFR, Visual Font Recognition) 문제를 다룬다. 비록 시각적 서체 인식이 다양한 실용적 응용 가능성을 지니고 있지만, 컴퓨터 비전 분야에서는 상대적으로 간과되어 왔다. VFR 문제를 해결하기 위해 우리는 2,420개의 서체 클래스를 포함하는 대규모 데이터셋을 구축하였으며, 이는 컴퓨터 비전 분야에서 일반적으로 사용되는 대부분의 이미지 분류 데이터셋을 훨씬 초월하는 규모이다. 서체 인식은 본질적으로 동적이고 개방형이므로, 시간이 지남에 따라 새로운 클래스 및 기존 카테고리의 새로운 데이터가 지속적으로 데이터베이스에 추가된다. 이러한 특성을 고려하여, 최근 클래스 평균 분류기(NCM, Nearest Class Mean) 기반의 확장 가능한 솔루션을 제안한다. 핵심 알고리즘은 국소적 특징 임베딩, 국소적 특징 거리 학습, 최대 마진 템플릿 선택을 기반으로 하며, 이는 자연스럽게 NCM에 적합하며, 따라서 개방형 분류 문제에 효과적으로 적용될 수 있다. 제안하는 새로운 알고리즘은 새로운 클래스나 새로운 데이터에 대해 추가 비용을 거의 들이지 않고도 일반화가 가능하다. 광범위한 실험을 통해 제안된 방법이 합성 테스트 이미지에서 매우 효과적임을 입증하였으며, 실제 세계의 테스트 이미지에서도 유망한 성능을 달성하였다.