11 天前

支持零样本分类的孟加拉语手写音素识别流水线

{Tashin Ahmed, Md Habibur Sifat, Linsheng Guo}
支持零样本分类的孟加拉语手写音素识别流水线
摘要

本研究聚焦于零样本学习(Zero-Shot Learning, ZSL),提出基于CycleGAN的图像生成方法与精确的标签映射机制,以建立标签与字形(graphemes)之间的强关联。研究旨在通过先进的字体图像分类技术以及基于CycleGAN的生成器,提升模型在识别未见类别时的准确性。所生成的抽象字符结构表征在识别性能上实现显著提升,能够有效涵盖已见与未见类别。本研究针对孟加拉语(Bangla)场景下的光学字符识别(OCR)难题展开深入探讨。孟加拉文字系统以其高度复杂性著称,共包含49个字符,其中包括11个元音、38个辅音以及18个变音符号。这些字符在复杂组合下可生成近13,000种独特的字形变体,远超英语语言中的字形单位数量。本研究提出了一种面向孟加拉语OCR的新型零样本学习策略,通过融合生成模型与精细化的标签标注技术,显著推动孟加拉语字形分类的发展。研究目标在于为南亚地区教育数字资源的普及与建设产生实质性影响。

支持零样本分类的孟加拉语手写音素识别流水线 | 最新论文 | HyperAI超神经