Command Palette
Search for a command to run...
通过连接分割区域检测自然图像中的定向文本
通过连接分割区域检测自然图像中的定向文本
Shi Baoguang Bai Xiang Belongie Serge
摘要
目前大多数最先进的文本检测方法仅适用于水平方向的拉丁文文本,且在实时应用中速度不足。本文提出一种定向文本检测方法——分段连接(Segment Linking, 简称SegLink)。其核心思想是将文本分解为两种局部可检测的元素:分段(segments)和连接(links)。其中,分段是指覆盖单词或文本行一部分的定向矩形框;连接则用于连接两个相邻的分段,表明它们属于同一个单词或文本行。这两种元素通过一个端到端训练的全卷积神经网络,在多个尺度上进行密集检测。最终的检测结果通过将由连接关联的分段进行组合生成。与以往方法相比,SegLink在检测精度、运行速度和训练便捷性方面均有所提升。在标准的ICDAR 2015偶然文本检测(Challenge 4)基准测试中,SegLink取得了75.0%的F-measure,显著优于此前最佳方法。在512×512分辨率的图像上,其运行速度超过20 FPS。此外,无需任何修改,SegLink即可有效检测非拉丁文的长文本行,例如中文。