18 天前

大规模视觉字体识别

{Eli Shechtman, Tony X. Han, Aseem Agarwala, Jianchao Yang, Hailin Jin, Guang Chen, Jonathan Brandt}
大规模视觉字体识别
摘要

本文针对大规模视觉字体识别(Visual Font Recognition, VFR)问题展开研究,该问题旨在无需依赖文本内容信息的情况下,自动识别图像或照片中文字的字体类型、字重及倾斜度。尽管视觉字体识别具有广泛的实际应用价值,但在计算机视觉领域长期未受到足够重视。为解决VFR问题,我们构建了一个大规模数据集,包含2,420个字体类别,其规模显著超过计算机视觉中大多数图像分类数据集。由于字体识别本质上具有动态性和开放性——即随着时间推移,不断有新的字体类别和已有类别的新数据被加入数据库——我们提出了一种可扩展的解决方案,基于最近类别均值分类器(Nearest Class Mean, NCM)。该核心算法融合了局部特征嵌入、局部特征度量学习以及最大间隔模板选择机制,天然适配NCM框架,因而特别适用于此类开放性分类任务。新提出的算法能够在几乎不增加计算成本的情况下,有效泛化至新类别和新数据。大量实验结果表明,该方法在合成测试图像上表现极为出色,在真实世界测试图像上也取得了具有前景的识别效果。