HyperAI超神经
Back to Headlines

研究人员用机器学习破解早期现代文本转录,推动伦理化研究进程

a day ago

在过去的二十年中,大规模数字化极大地改变了学术研究的方式。通过数字转录,研究人员可以远程搜索特定关键词,避免了频繁前往档案馆和图书馆。然而,这一变革引发了关于劳动伦理的新问题。在近日发表于《十六世纪杂志》的一篇文章中,研究者塞雷娜·斯特雷克和金伯利·利夫顿提出了在进行早期现代文献转录时应遵循的方法,以避免不道德的劳动实践。 文章首先回顾了生成转录所用的两种软件:光学字符识别(OCR)和手写文本识别(HTR)。OCR软件在转录19世纪后期和20世纪作品时表现良好,但由于早期现代印刷品中常见的不规则性,使得OCR难以可靠地转录这些文献。因此,早期现代学者转向了HTR技术。目前,领先的HTR软件Transkribus允许用户使用公开可用的转录模型或训练自己的模型。 斯特雷克和利夫顿通过对四个16世纪样本集的页面进行了多种HTR模型的测试,展现了Transkribus在促进创建定制化转录模型方面的优势。他们强调,使用Transkribus的公开模型,研究人员可以生成所需的训练数据,从而训练出高度准确的个性化模型。这不仅提高了效率,还避免了依赖外部劳动力,如研究生或全球南方地区的工人,进行手动转录。 作者指出,随着早期现代印刷品的自动准确转录从目标变为现实,早期现代研究领域必须思考如何结合人类劳动和机器学习技术,既符合伦理规范又能够支持未来的研究。“只有坚持公平的劳动实践,学者们才能避免加剧学术层级内的不平等或延续殖民主义的长期不公。”他们总结道。 在这一背景下,Transkribus的技术提供了新的解决方案,使学术研究更加便捷和高效,同时也注重了伦理和社会责任。这篇文章引发了业内关于技术进步与道德规范之间权衡的讨论,强调了学者在利用新技术时应承担的社会责任。未来,这种结合机器学习和伦理实践的方法可能会成为早期现代文献研究的主流趋势。 Transkribus是由读写科技国际有限公司开发的先进手写文本识别工具,广泛应用于历史和文化遗产领域的数字化项目。该公司一直致力于推动HTR技术的发展,以支持学术研究和文化保存。这篇文章的作者塞雷娜·斯特雷克和金伯利·利夫顿均是早期现代文学和文化研究领域的专家,他们的研究成果为学术界提供了重要的参考。

Related Links