
摘要
近年来,基于深度学习的方法在计算机视觉领域取得了令人瞩目的成果。然而,常见的深度学习模型通常需要大量标注数据,而这些数据的收集与标注过程耗时费力。此外,当训练数据与测试数据之间存在领域偏移(domain shift)时,模型性能往往会显著下降。文本识别作为计算机视觉中的一个广泛研究方向,同样面临上述挑战,其主要原因在于字体多样性和背景复杂性带来的巨大变化。本文聚焦于文本识别问题,针对上述挑战提出了三项主要贡献。首先,我们构建了一个多源域自适应文本识别数据集,涵盖五个不同的数据域,包含超过五百万张图像,据我们所知,这是首个多领域文本识别数据集。其次,我们提出了一种名为“元自学习”(Meta Self-Learning)的新方法,该方法将自学习机制与元学习范式相结合,在多域适应场景下显著提升了文本识别性能。第三,我们在该数据集上开展了大量实验,不仅为该任务建立了基准测试标准,也充分验证了所提方法的有效性。本文的相关代码与数据集将很快在 https://bupt-ai-cz.github.io/Meta-SelfLearning/ 公开发布。