8 个月前

自然语言处理

计算机视觉

Jubaer Sheikh Mohammad ; Tabassum Nazifa ; Rahman Md. Ataur ; Islam Mohammad Khairul

摘要

手写识别对于一些使用最广泛的语言（如孟加拉语）仍然具有挑战性，这主要是由于书写曲线性质带来的线条和单词分割复杂性以及缺乏高质量的数据集。本文通过引入一种最先进的方法（BN-DRISHTI），解决了分割问题。该方法结合了基于深度学习的目标检测框架（YOLO）与霍夫变换和仿射变换进行倾斜校正。然而，训练深度学习模型需要大量的数据。因此，我们还介绍了一个扩展版本的BN-HTRd数据集，该数据集包含786幅完整的孟加拉语手写文档图像、用于分割的行级和词级注释以及相应的词识别基准真值。在我们数据集的测试部分上进行评估的结果显示，行分割的F分数为99.97%，词分割的F分数为98%。为了进行对比分析，我们使用了三个外部孟加拉语手写数据集，即BanglaWriting、WBSUBNdb_text和ICDAR 2013，在这些数据集中我们的系统显著优于其他方法，进一步证明了我们的方法在完全未见过的样本上的性能优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

计算机视觉

Jubaer Sheikh Mohammad ; Tabassum Nazifa ; Rahman Md. Ataur ; Islam Mohammad Khairul

摘要

手写识别对于一些使用最广泛的语言（如孟加拉语）仍然具有挑战性，这主要是由于书写曲线性质带来的线条和单词分割复杂性以及缺乏高质量的数据集。本文通过引入一种最先进的方法（BN-DRISHTI），解决了分割问题。该方法结合了基于深度学习的目标检测框架（YOLO）与霍夫变换和仿射变换进行倾斜校正。然而，训练深度学习模型需要大量的数据。因此，我们还介绍了一个扩展版本的BN-HTRd数据集，该数据集包含786幅完整的孟加拉语手写文档图像、用于分割的行级和词级注释以及相应的词识别基准真值。在我们数据集的测试部分上进行评估的结果显示，行分割的F分数为99.97%，词分割的F分数为98%。为了进行对比分析，我们使用了三个外部孟加拉语手写数据集，即BanglaWriting、WBSUBNdb_text和ICDAR 2013，在这些数据集中我们的系统显著优于其他方法，进一步证明了我们的方法在完全未见过的样本上的性能优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

BN-DRISHTI：通过手写文本图像实例级分割实现孟加拉语文档识别 | 论文 | HyperAI超神经