6 个月前

计算机视觉

视觉文档检索

计算机视觉

Eli Shechtman Tony X. Han Aseem Agarwala Jianchao Yang Hailin Jin Guang Chen Jonathan Brandt

摘要

本文针对大规模视觉字体识别（Visual Font Recognition, VFR）问题展开研究，该问题旨在无需依赖文本内容信息的情况下，自动识别图像或照片中文字的字体类型、字重及倾斜度。尽管视觉字体识别具有广泛的实际应用价值，但在计算机视觉领域长期未受到足够重视。为解决VFR问题，我们构建了一个大规模数据集，包含2,420个字体类别，其规模显著超过计算机视觉中大多数图像分类数据集。由于字体识别本质上具有动态性和开放性——即随着时间推移，不断有新的字体类别和已有类别的新数据被加入数据库——我们提出了一种可扩展的解决方案，基于最近类别均值分类器（Nearest Class Mean, NCM）。该核心算法融合了局部特征嵌入、局部特征度量学习以及最大间隔模板选择机制，天然适配NCM框架，因而特别适用于此类开放性分类任务。新提出的算法能够在几乎不增加计算成本的情况下，有效泛化至新类别和新数据。大量实验结果表明，该方法在合成测试图像上表现极为出色，在真实世界测试图像上也取得了具有前景的识别效果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

视觉文档检索

计算机视觉

Eli Shechtman Tony X. Han Aseem Agarwala Jianchao Yang Hailin Jin Guang Chen Jonathan Brandt

摘要

本文针对大规模视觉字体识别（Visual Font Recognition, VFR）问题展开研究，该问题旨在无需依赖文本内容信息的情况下，自动识别图像或照片中文字的字体类型、字重及倾斜度。尽管视觉字体识别具有广泛的实际应用价值，但在计算机视觉领域长期未受到足够重视。为解决VFR问题，我们构建了一个大规模数据集，包含2,420个字体类别，其规模显著超过计算机视觉中大多数图像分类数据集。由于字体识别本质上具有动态性和开放性——即随着时间推移，不断有新的字体类别和已有类别的新数据被加入数据库——我们提出了一种可扩展的解决方案，基于最近类别均值分类器（Nearest Class Mean, NCM）。该核心算法融合了局部特征嵌入、局部特征度量学习以及最大间隔模板选择机制，天然适配NCM框架，因而特别适用于此类开放性分类任务。新提出的算法能够在几乎不增加计算成本的情况下，有效泛化至新类别和新数据。大量实验结果表明，该方法在合成测试图像上表现极为出色，在真实世界测试图像上也取得了具有前景的识别效果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供