MIND Microsoft News-Datensatz
Datum
Größe
Veröffentlichungs-URL
Tags
Kategorien
Microsoft News Dataset (MIND) ist ein großer Datensatz für die Nachrichtenempfehlungsforschung, der aus anonymen Verhaltensprotokollen der Microsoft News-Website gesammelt wird. Die Mission von MIND besteht darin, als Benchmark-Datensatz für Nachrichtenempfehlungen zu dienen und die Forschung im Bereich der Nachrichtenempfehlung und Empfehlungssysteme zu fördern.
MIND enthält ungefähr 160.000 englische Nachrichtenartikel und mehr als 15 Millionen Impression-Protokolle, die von 1 Million Benutzern generiert wurden. Jeder Nachrichtenartikel enthält Rich-Text-Inhalte, einschließlich Titel, Zusammenfassung, Text, Kategorien und Entitäten. Jedes Impression-Protokoll enthält die Klickereignisse, Nicht-Klick-Ereignisse und das historische Klickverhalten des Benutzers auf Nachrichten vor dieser Impression. Zum Schutz der Privatsphäre der Benutzer wird jeder Benutzer vom Produktionssystem entkoppelt, wenn er sicher in eine anonyme ID gehasht wird.
Dieser Datensatz wurde 2020 von Microsoft und der Tsinghua-Universität veröffentlicht. Das entsprechende Papier ist „MIND: Ein umfangreicher Datensatz für Nachrichtenempfehlungen", ausgewählt für ACL 2020.