2 个月前

FONTNET:设备端字体理解和预测管道

S, Rakshith ; Khurana, Rishabh ; Agarwal, Vibhav ; Vachhani, Jayesh Rajkumar ; Bhanodai, Guggilla
FONTNET:设备端字体理解和预测管道
摘要

字体是设计中最基本和核心的概念之一。深入理解字体可以为许多应用场景带来益处,例如文本自定义,可以在保持字体属性(如样式、颜色、大小)的同时更改图像中的文本。目前,文本识别解决方案可以根据换行符或段落分隔符对识别的文本进行分组,如果已知字体属性,则可以根据上下文以有意义的方式合并多个文本块。本文提出了两个引擎:字体检测引擎和字体预测引擎。其中,字体检测引擎用于识别图像中文本的样式、颜色和大小属性;而字体预测引擎则用于预测与给定查询字体相似的其他字体。本文的主要贡献有三个方面:首先,我们开发了一种新颖的卷积神经网络(CNN)架构,用于识别图像中文本的样式;其次,我们设计了一种新颖的算法,用于预测给定查询字体的相似字体;最后,我们对整个引擎进行了优化并实现了设备端部署,这不仅确保了隐私性,还提高了即时通讯等实时应用中的响应速度。我们在设备端实现了最差情况下的推理时间为30毫秒,模型大小为4.5MB。