Command Palette
Search for a command to run...
EAST:一种高效且准确的场景文本检测器
EAST:一种高效且准确的场景文本检测器
摘要
先前的场景文本检测方法已在各类基准测试中取得了令人瞩目的性能表现。然而,即便采用深度神经网络模型,这些方法在处理复杂场景时仍往往表现不足,原因在于整体性能取决于流水线中多个阶段与组件之间的协同作用。本文提出了一种简单而强大的检测流水线,能够在自然场景中实现快速且准确的文本检测。该流水线通过单一神经网络直接预测图像中任意方向和四边形形状的单词或文本行,省去了不必要的中间步骤(如候选区域聚合与单词分割),显著提升了效率。由于流程的简洁性,研究重点可集中于损失函数设计与神经网络架构的优化。在ICDAR 2015、COCO-Text和MSRA-TD500等标准数据集上的实验表明,所提出的算法在准确率与效率方面均显著优于当前最先进的方法。在ICDAR 2015数据集上,该算法在720p分辨率下实现了13.2帧/秒(fps)的推理速度,F-score达到0.7820。