Corpus Brun
Date
Taille
URL de publication
Le Brown Corpus est le premier corpus de textes en anglais américain, tiré de textes de journaux, de livres et de documents gouvernementaux sur divers sujets. Il contient 1 014 312 mots et est principalement utilisé pour la modélisation du langage.
Le corpus original contient des phrases annotées manuellement, des limites de jetons et des annotations de classes de mots, tandis que le corpus converti contient le texte intégral reconstruit sur la base de la version TEI/XML du corpus Brown et connecté à la classe Word d'ontologie pour les requêtes agrégées via OLiA.
Le corpus a été initialement publié par W. Nelson Francis et Henry Kučera du Département de linguistique de l'Université Brown en 1963-1964 dans l'article « Computational Analysis of Present-Day American English ».