Google Trends est trompeur : comment faire du machine learning avec ses données (sans se tromper)
Google Trends est trompeur : comment faire de l’apprentissage automatique avec ses données Google Trends est l’un des outils les plus utilisés pour analyser le comportement humain à grande échelle. Journalistes, data scientists, chercheurs s’en servent pour tirer des tendances, illustrer des articles ou même construire des modèles prédictifs. Pourtant, une caractéristique fondamentale de ses données — souvent ignorée — rend leur utilisation particulièrement risquée, surtout dans le cadre de l’apprentissage automatique ou de l’analyse de séries temporelles. Le problème ? La normalisation. Google ne publie pas les volumes réels de recherche. Ces données sont une source de revenus stratégique, donc elles restent confidentielles. Ce qu’il fournit, c’est une série temporelle normalisée : chaque pic de recherche est fixé à 100, et tous les autres points sont ajustés proportionnellement. Ce qui semble anodin devient critique lorsqu’on cherche à modéliser des comportements sur plusieurs années. En effet, la valeur 100 n’a pas de sens absolu : elle change selon la fenêtre temporelle choisie. Ainsi, un pic à 100 en 2020 n’a pas la même signification qu’un pic à 100 en 2023. Le problème se manifeste clairement quand on tente d’obtenir des données quotidiennes sur plusieurs années. Google Trends ne permet pas plus de 90 jours de données quotidiennes. Si l’on veut étendre la période, on est contraint de découper le temps en fenêtres successives. Mais chaque fenêtre a son propre pic, donc son propre 100. Comparer deux périodes sans les superposer risque de fausser complètement les interprétations. Par exemple, une recherche pour « motivation » atteint 100 le 13 mai, et 100 le 10 juin. Mais si on les affiche ensemble, on voit que le pic du 10 juin n’était que 83 en valeur relative par rapport au pic du 13 mai. Sans cette visualisation combinée, on croirait que les deux pics étaient équivalents. Une solution possible consiste à utiliser un chevauchement de fenêtres (par exemple, une fenêtre de 90 jours avec un mois de recouvrement). On peut alors utiliser les données communes pour recalibrer les séries. Mais un autre problème surgit : Google ne traque pas chaque requête. Il utilise des échantillonnages, ce qui introduit une variabilité aléatoire. De plus, les valeurs sont arrondies à l’entier le plus proche. Une erreur de 0,5 devient significative quand la valeur est proche de zéro — par exemple, un pic de 1 devient 0 ou 2 selon le hasard de l’échantillonnage. Pour résoudre ces problèmes, une approche robuste consiste à utiliser des fenêtres plus larges (90 jours) avec un chevauchement mensuel. Cela réduit l’impact des erreurs aléatoires et des arrondis. En testant cette méthode sur cinq ans de données Facebook, on observe des pics réels — notamment celui du 4 octobre 2021, lié à une panne massive de Meta. En comparant la moyenne hebdomadaire de nos données à celle de Google Trends, on obtient un résultat proche (102,8 contre 100), ce qui valide la fiabilité du traitement. Ce processus permet de reconstruire une série temporelle quotidienne cohérente, comparable dans le temps, sans être biaisée par la normalisation. Toutefois, la véritable complexité commence quand on veut comparer des termes ou des pays. Google Trends ne permet pas de comparer directement plusieurs pays. Une solution pourrait être de créer un « panier de biens » — un ensemble de termes représentatifs — pour établir des indices comparables à l’échelle mondiale. En résumé, Google Trends est un outil puissant, mais son utilisation abusive mène souvent à des conclusions erronées, surtout par confusion entre corrélation et causalité. Comprendre ses limites — notamment la normalisation dynamique, l’échantillonnage et l’arrondi — est essentiel pour tirer des insights fiables. L’apprentissage automatique avec ces données exige une préparation rigoureuse, mais le résultat peut être une représentation fidèle du comportement humain à grande échelle.
