aclImdb_v1 Großer Datensatz Mit Filmkritiken
Datum
Größe
Veröffentlichungs-URL
Kategorien
AclImdb – v1 Dataset ist ein umfangreicher Datensatz mit Filmkritiken zur binären Stimmungsklassifizierung. Es deckt mehr Daten ab als der Benchmark-Datensatz, mit 25.000 Filmkritiken für das Training und 25.000 für Tests. Darüber hinaus sind auch zusätzliche, nicht gekennzeichnete Daten verfügbar. Der Datensatz enthält sowohl Rohtext als auch verarbeitete Wortbeutelformate.
Der Datensatz AclImdb-v1 wurde 2011 vom Stanford AI Lab in den Proceedings der 49. Jahreskonferenz der Association for Computational Linguistics: Human Language Technologies veröffentlicht. Die Hauptherausgeber sind Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng und Christopher Potts. Das zugehörige Dokument trägt den Titel „Learning Word Vectors for Sentiment Analysis“.