Brown Corpus 布朗语料库

数据集下载 磁力链 下载帮助

OpenBayes 注册即获得免费算力

布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸文本、书籍以及政府文件,包含 1,014,312 个单词的它主要用于语言建模。

原始语料库包含手动注释的句子、标记边界和单词类注释,转换的语料库则包含基于布朗语料库 TEI / XML 版本重建的完整文本,并通过 OLiA 连接到用于聚合查询的本体 Word 类中。

该语料库最初由布朗大学语言学系的 W. Nelson Francis 和 HenryKučera 于 1963 – 1964 年发布,相关论文有《Computational Analysis of Present-Day American English》。

964 做种 21 下载 442 已完成
文件名大小
README.md1.49 KB
README.txt1.49 KB
Brown Corpus.zip9.09 MB