Google Trends-Daten täuschen vor: So nutzt man sie für Maschinenlernen
Google Trends wird oft als zuverlässiges Werkzeug zur Analyse menschlichen Verhaltens genutzt – von Journalisten über Forscher bis hin zu Data Scientists. Doch hinter der scheinbar klaren Darstellung von Suchtrends verbirgt sich ein tiefgreifendes Problem: die Normalisierung der Daten. Google veröffentlicht keine absoluten Suchzahlen, sondern liefert nur normalisierte Werte, bei denen der höchste Suchwert innerhalb eines bestimmten Zeitraums stets auf 100 gesetzt wird. Dies bedeutet, dass der Wert „100“ nicht konstant ist, sondern sich je nach gewähltem Zeitfenster ändert – eine Eigenschaft, die die Vergleichbarkeit von Daten über verschiedene Perioden oder Suchbegriffe extrem erschwert. Die Schwierigkeit tritt besonders bei maschinellem Lernen auf, wo kontinuierliche, vergleichbare Zeitreihen erforderlich sind. Beispielsweise kann ein Suchgipfel am 13. Mai 2025 mit 100 bewertet werden, während ein ähnlicher Gipfel im Juni aufgrund anderer Normalisierungsgrenzen nur 83 erhält – obwohl die tatsächlichen Suchzahlen möglicherweise identisch waren. Dies führt leicht zu falschen Schlussfolgerungen, etwa wenn man annimmt, dass Motivation im Juni weniger gesucht wurde als im Mai, obwohl die relative Häufigkeit tatsächlich höher war. Um dieses Problem zu lösen, entwickelte der Autor eine Methode mit überlappenden 90-Tage-Fenstern, wobei jeweils ein Monat gemeinsam genutzt wird, um die Daten zu skalieren. Dies reduziert die Auswirkungen von Stichprobenfehlern und Rundungsungenauigkeiten, die durch Googles Sampling-Verfahren und die Rundung auf ganze Zahlen entstehen. Die Überprüfung anhand echter Ereignisse – wie dem Meta-Ausfall am 4. Oktober 2021 – zeigte, dass die selbst erstellte Zeitreihe mit den offiziellen Google-Trends-Werten übereinstimmte: Ein Wochenmittelwert lag bei 102,8, was nahe an 100 liegt und die Zuverlässigkeit der Methode bestätigt. Die Methode ermöglicht nun die Erstellung von konsistenten, täglichen Zeitreihen für beliebige Suchbegriffe über mehrere Jahre hinweg. Allerdings bleibt die Herausforderung, Daten aus verschiedenen Ländern miteinander zu vergleichen – Google Trends erlaubt zwar den Vergleich mehrerer Begriffe, nicht aber von Ländern. Die Lösung könnte in einer „Basket-of-Goods“-Methode liegen, bei der Suchtrends aus verschiedenen Ländern auf Basis gemeinsamer, repräsentativer Begriffe standardisiert werden. Industrieexperten warnen jedoch vor der Verwendung von Google Trends ohne tiefgreifende Kenntnis der Datenstruktur. „Die Normalisierung ist kein Fehler, sondern eine Designentscheidung“, betont ein Data Scientist von einem führenden Tech-Unternehmen. „Wer sie nicht versteht, baut Modelle auf Sand.“ Die Methode des Autors wird als vielversprechender Ansatz gesehen, der die Grenzen der Plattform überwinden könnte – allerdings nur, wenn man die zugrundeliegenden Annahmen und Unsicherheiten bewusst berücksichtigt. Google Trends bleibt ein mächtiges, aber gefährliches Werkzeug: Es spiegelt nicht die absolute Suchintensität wider, sondern relative Muster – und genau das muss jeder, der mit den Daten arbeitet, verstehen.
