HyperAI

MIND Microsoft News-Datensatz

Datum

vor 9 Monaten

Größe

1.15 GB

Organisation

Microsoft
Tsinghua-Universität

Veröffentlichungs-URL

msnews.github.io

Kategorien

Microsoft News Dataset (MIND) ist ein großer Datensatz für die Nachrichtenempfehlungsforschung, der aus anonymen Verhaltensprotokollen der Microsoft News-Website gesammelt wird. Die Mission von MIND besteht darin, als Benchmark-Datensatz für Nachrichtenempfehlungen zu dienen und die Forschung im Bereich der Nachrichtenempfehlung und Empfehlungssysteme zu fördern.

MIND enthält ungefähr 160.000 englische Nachrichtenartikel und mehr als 15 Millionen Impression-Protokolle, die von 1 Million Benutzern generiert wurden. Jeder Nachrichtenartikel enthält Rich-Text-Inhalte, einschließlich Titel, Zusammenfassung, Text, Kategorien und Entitäten. Jedes Impression-Protokoll enthält die Klickereignisse, Nicht-Klick-Ereignisse und das historische Klickverhalten des Benutzers auf Nachrichten vor dieser Impression. Zum Schutz der Privatsphäre der Benutzer wird jeder Benutzer vom Produktionssystem entkoppelt, wenn er sicher in eine anonyme ID gehasht wird.

Dieser Datensatz wurde 2020 von Microsoft und der Tsinghua-Universität veröffentlicht. Das entsprechende Papier ist „MIND: Ein umfangreicher Datensatz für Nachrichtenempfehlungen", ausgewählt für ACL 2020.

MIcrosoftNewsDataset-MIND.torrent
Seeding 2Herunterladen 1Abgeschlossen 92Gesamtdownloads 150
  • MIcrosoftNewsDataset-MIND/
    • README.md
      1.54 KB
    • README.txt
      3.08 KB
      • data/
        • mind.zip
          1.15 GB