Der Filmdatensatz Filminformationsdatensatz
Datum
Größe
Veröffentlichungs-URL
Lizenz
CC BY 4.0
Dieser Datensatz enthält detaillierte Metadaten zu 45.000 Filmen im vollständigen MovieLens-Datensatz, die alle vor Juli 2017 veröffentlicht wurden. Dieser Datensatz deckt nicht nur grundlegende Informationen zu den Filmen ab, wie etwa Plakate, Hintergründe, Budgets und Einnahmen, sondern beinhaltet auch detaillierte Informationen wie Veröffentlichungsdatum, Sprache, Produktionsland und Unternehmen. Darüber hinaus enthält es 26 Millionen Bewertungen von 270.000 Benutzern, die mit 1 bis 5 Punkten bewertet werden und wertvolle Daten für die Untersuchung der Popularität von Filmen liefern.
Dieser Datensatz wurde durch das Abschlussprojekt des Autors im Springboard Data Science Career Track inspiriert, dessen Ziel darin besteht, durch explorative Datenanalyse von Filmdaten verschiedene Arten von Empfehlungssystemen zu erstellen. Die Notizbücher der Autoren, darunter „The Story of Movies“ und „Movie Recommender Systems“, werden als Kernel zusammen mit dem Datensatz bereitgestellt und bieten praktische Tools für Forscher und Entwickler, die Einblicke in Filmdaten gewinnen möchten.
Dateninhalt:
- movies_metadata.csv:Hauptmetadatendatei des Films. Enthält Informationen zu den 45.000 Filmen im vollständigen MovieLens-Datensatz. Zu den Informationen gehören Poster, Hintergrund, Budget, Einnahmen, Veröffentlichungsdatum, Sprache, Produktionsland und Unternehmen.
- keywords.csv:Enthält Filmhandlungsschlüsselwörter für MovieLens-Filme. Wird als in Zeichenfolgen umgewandeltes JSON-Objekt bereitgestellt.
- credits.csv:Enthält Informationen zu Besetzung und Crew aller Filme. Wird als in Zeichenfolgen umgewandeltes JSON-Objekt bereitgestellt.
- links.csv:Datei mit den TMDB- und IMDB-IDs für alle Filme im vollständigen MovieLens-Datensatz.
- links_small.csv:Enthält TMDB- und IMDB-IDs für eine kleine Teilmenge von 9.000 Filmen aus dem vollständigen Datensatz.
- bewertungen_klein.csv: Eine Teilmenge von 100.000 Bewertungen von 700 Benutzern zu 9.000 Filmen.
Mit diesem Datensatz können Forscher eine Vielzahl von Analysen durchführen, beispielsweise die Prognose von Kinoeinnahmen und Erfolgswahrscheinlichkeiten oder den Aufbau inhaltsbasierter Empfehlungsmaschinen und kollaborativer Filterempfehlungssysteme. Diese Analysen helfen nicht nur, die Dynamik der Filmindustrie zu verstehen, sondern liefern auch eine wissenschaftliche Grundlage für die Gestaltung von Film-Empfehlungssystemen.