HyperAI

Brauner Korpus

Das Brown Corpus ist das erste Textkorpus des amerikanischen Englisch, das aus Zeitungstexten, Büchern und Regierungsdokumenten zu verschiedenen Themen besteht. Es enthält 1.014.312 Wörter und wird hauptsächlich zur Sprachmodellierung verwendet.

Das ursprüngliche Korpus enthält manuell annotierte Sätze, Token-Grenzen und Wortklassenannotationen, während das konvertierte Korpus den vollständigen Text enthält, der auf Grundlage der TEI/XML-Version des Brown Corpus rekonstruiert und für aggregierte Abfragen über OLiA mit der Ontologie-Wortklasse verbunden wurde.

Das Korpus wurde ursprünglich 1963–1964 von W. Nelson Francis und Henry Kučera vom Institut für Linguistik der Brown University in der Abhandlung „Computational Analysis of Present-Day American English“ veröffentlicht.

Brown Corpus.torrent
Seeding 4Herunterladen 0Abgeschlossen 1,398Gesamtdownloads 3,453
  • Brown Corpus/
    • README.md
      1.49 KB
    • README.txt
      2.97 KB
      • data/
        • Brown Corpus.zip
          9.09 MB