Voynich 手稿结构分析揭示潜在语言模式
GitHub用户brianmg通过现代自然语言处理(NLP)技术对神秘的沃伊尼奇手稿进行了结构性分析,旨在不涉及翻译猜测或模式虚构的情况下,验证这部手稿是否具有真实的语言结构。虽然他不是语言学家或密码学专家,但这次尝试提供了一条介于传统统计分析和无根据臆测之间的新路径,利用计算语言学技术评估沃伊尼奇手稿是否编码了实际存在的、结构化的语言行为。这项研究在2023年进行,通过构建词尾剥离、SBERT嵌入等方法来探索手稿的语言特性。 在整个过程中,最明显的贡献之一是在预处理阶段选择性地剥离了一些类似词尾的后缀,如aiin、dy、chy等,这是基于这些后缀可能是语法标记、数量指标或是变位动词词尾的假设。这一操作显著改进了词汇聚类的效果,使得相似的词汇根部能够更紧密地聚集,同时过渡矩阵显示出更为清洁的结构化模式。这不仅表明手稿中可能存在类似于真实语言的规则体系,也暗示了进一步研究的方向。 研究表明,沃伊尼奇手稿中的文字表现出了语法规则、功能与内容分离以及部分特定语言变化的特点。尽管没有直接破译,但这些特征支持了一种假设——沃伊尼奇手稿可能使用音节填充和位置重复的技术来编码一种人为构造的或辅助记忆的语言。例如,手稿的各个章节中展示出明显的语言特征变化,这进一步增加了上述假设的可信度。 为了验证这一结论,brianmg使用了SBERT嵌入模型将手稿中的词嵌入到一个降维的空间中,并构建了一个过渡矩阵,通过热图展示各词汇之间的转换频率。这两个可视化工具揭示了手稿中的词汇和过渡模式明显不同于随机文本,而更接近于真正的语言系统。 不过,这种分析方法也存在局限性。例如,预处理阶段的词尾剥离可能会引入人为偏差,影响最终结果。此外,没有直接翻译的手稿仍然难以完全解析其具体含义,这对手稿的真实用途和作者仍然提出了一定的疑问。 项目代码仓库对所有感兴趣的人开放,特别是欢迎语言学家、密码学专家、辅助语言爱好者及计算语言研究者的参与。brianmg希望通过开放合作,让不同领域的专家能够从更多角度出发,进一步探索沃伊尼奇手稿的奥秘。 业内普遍认为,brianmg的研究为解开沃伊尼奇手稿之谜提供了新的思路和技术手段。尽管目前还没有完全破译手稿,但这种跨学科、数据驱动的方法展示了现代技术在古文字研究中的应用潜力。GitHub作为全球最大的开源软件开发平台,也为这类学术研究提供了良好的支持环境。