كيف تستخدم بيانات Google Trends في التعلم الآلي دون أن تخدع نفسك: دليل عملي لتجنب الأخطاء الشائعة Google Trends أداة شائعة جدًا لتحليل سلوك البشر على نطاق واسع، تُستخدم من قبل الصحفيين، وعلماء البيانات، وحتى الباحثين في أوراق أكاديمية. لكن وراء سهولة استخدامها، تكمن مشكلة جوهرية تجعلها مُضللة بسهولة، خاصة عند بناء نماذج تعلّم آلي، وغالبًا ما يتجاهلها معظم المستخدمين. المشكلة تكمن في طبيعة البيانات: لا تُعلن Google عن أرقام حقيقية لحجم عمليات البحث، لأنها تُعدّ مصدر دخل رئيسي. بدلًا من ذلك، تقدم لك بيانات مُعدّلة (مُنضبطة نسبيًا) تُظهر التغيرات النسبية في البحث عبر الزمن، حيث يتم تحديد أعلى قيمة في أي فترة زمنية وتعيينها كـ 100، ثم تُخفض جميع القيم الأخرى بنسبة متناسبة. هذا التطبيع يُحدث تأثيرًا كبيرًا عند تحليل البيانات الزمنية. فمثلاً، إذا قمت بتحليل "بحث عن التحفيز" في المملكة المتحدة على مدى شهر، فإن الذروة في 13 مايو قد تكون 100. لكن إذا جمعت بيانات شهر يونيو، فإن الذروة قد تكون في 10 يونيو، وتصبح 100 أيضًا. هل هذا يعني أن الطلب على التحفيز كان متساويًا في هذين اليومين؟ لا، لأن القيمة 100 تختلف حسب الفترة. فعند دمج الشهرين معًا، نرى أن 10 يونيو كانت فقط 83% من ذروة مايو، ما يكشف أن التطبيع يُضلل المقارنة. الحل؟ لا يمكن الاعتماد على فترات منفصلة. بدلاً من ذلك، يجب استخدام نافذة متحركة (rolling window) من 90 يومًا مع تداخل شهر كامل بين كل فترة، مما يوفر مرجعًا ثابتًا (شهر مُشترك) لتصحيح التطبيع بين النماذج. لكن حتى هذا لا يكفي. لأن Google لا تُسجّل كل عمليات البحث، بل تعتمد على عينات عشوائية، مما يُسبب تذبذبًا عشوائيًا يوميًا. إضافة إلى ذلك، تُقرّب Google النتائج لأقرب عدد صحيح — فلا يوجد 50.5، فقط 50 أو 51. هذه الدقة المحدودة تُصبح مشكلة كبيرة عند تحليل قيم صغيرة، مثل 1 أو 2، حيث يُصبح الخطأ النسبي كبيرًا جدًا. الحل الأفضل؟ توسيع النافذة لتصبح أكثر استقرارًا. باستخدام نافذة 90 يومًا مع تداخل شهري، تُقلل من تأثير التذبذبات العشوائية والخطأ الناتج عن التقريب. بعد تطبيق هذه الطريقة على بيانات "فيسبوك" على مدى خمس سنوات، ظهرت ذروتان ملحوظتان. الأولى في 4 أكتوبر 2021 — وعند التحقق، وُجد أن اليوم شهد انقطاعًا واسعًا في خدمات ميتا (فيسبوك، إنستغرام، واتساب). فعند مقارنة النتائج مع الرسم البياني الرسمي لـ Google Trends، تبين أن القيمة المتوسطة للأسابيع التي شهدت الذروة كانت 102.8 مقابل 100 — ما يدل على أن الطريقة تعمل بدقة عالية. النتيجة: تمكّننا من بناء سلسلة زمنية يومية مُعدّلة وقابلة للمقارنة، تشبه تمامًا بيانات Google Trends الأصلية — دون أن نخدع أنفسنا بتأثير التطبيع. لكن السؤال الأكبر يبقى: كيف نقارن بين دول؟ لأن Google Trends لا يسمح بمقارنة مباشرة بين دول، حتى لو جمعنا بيانات مُعدّلة لكل دولة. الحل؟ بناء "سلة سلع" مقارنة (مثل: فيسبوك، تويتر، جوجل، ترندات ثقافية) كمقياس نسبي لقياس التوجهات عبر الحدود. الخلاصة: بيانات Google Trends ليست خاطئة، لكنها مُصممة لتُظهر التغيرات النسبية، وليس القيم المطلقة. عند استخدامها في التعلم الآلي، يجب أن نفهم هذه الطبيعة، ونُعدّل البيانات بعناية باستخدام نماذج متحركة ومقاييس مُشتركة. وإلا، فنحن نبني نماذج على تصورات مُضللة — مثل الاعتقاد أن فيلم ديزني يقلل من طلاق البريطانيين، أو أن شرب كوكا كولا يُشفّي جروح القطط.
يُعدّ Google Trends أداة شائعة جدًا لتحليل سلوك البشر على نطاق واسع، لكنها تُقدّم بيانات مُعدّلة بشكل يُسهّل ارتكاب أخطاء كبيرة، خاصة عند استخدامها في نماذج التعلم الآلي. الفكرة الأساسية التي تُربك معظم المستخدمين هي أن البيانات المقدمة من Google Trends ليست قيمًا حقيقية، بل قيم مُعيّنة (مُعدّلة) بحيث يُعاد ضبط أعلى قيمة في أي فترة زمنية إلى 100، بينما تُخفض القيم الأخرى نسبيًا. هذا يعني أن الرقم 100 ليس ثابتًا — بل يتغير حسب الفترة التي تختارها، مما يجعل المقارنات بين فترات مختلفة غير موثوقة. عندما حاول الكاتب جمع بيانات يومية لفترة خمس سنوات، واجه مشكلة حقيقية: لم يُمكنه الحصول على بيانات يومية لفترة طويلة، وعندما حاول استخدام فترات أقصر (مثل 90 يومًا)، وجد أن أعلى قيمة في كل فترة تُعاد ضبطها إلى 100، مما يُشوّش على التمثيل الحقيقي لحجم البحث. مثال بسيط: إذا كانت ذروة البحث في مايو كانت في 13 مايو، وبلغت 100، وذروة البحث في يونيو كانت في 10 يونيو، وبلغت أيضًا 100، فهذا لا يعني أن البحث كان متساويًا — بل أن كل فترة تُعدّل حسب ذروتها الخاصة. لكن هناك حلًا ممكنًا: استخدام نافذة متحركة (rolling window) بفترة 90 يومًا مع تداخل شهري كامل بين كل فترتين. بهذه الطريقة، يمكن استخدام شهر التداخل كمقياس موحد لضبط البيانات وجعلها مقارنة. ومع ذلك، تظهر مشكلة ثانية: Google لا يُجمّع كل عمليات البحث، بل يستخدم عينات عشوائية، ما يؤدي إلى تقلبات عشوائية يومية. بالإضافة إلى ذلك، تُقرب القيم إلى أقرب عدد صحيح، مما يُضخم الأخطاء عند القيم الصغيرة (مثل 1 أو 2). لحل هذه التحديات، قام الكاتب بتجريب طريقة مبنية على تجميع بيانات يومية، ثم تقويمها باستخدام شهر تداخل طويل، ووجد أن النتائج تتطابق بشكل مدهش مع بيانات Google Trends عند مقارنة متوسط أسبوعي. على سبيل المثال، عند مقارنة الذروة الكبيرة في 4 أكتوبر 2021 (التي نتجت عن أعطال Meta)، وجد أن متوسطه الأسبوعي بلغ 102.8، مقابل 100 في Google Trends — دليل على دقة النموذج. النتيجة النهائية: يمكن بناء سلسلة زمنية يومية موثوقة وقابلة للمقارنة باستخدام هذه الطريقة، بشرط التعامل مع التقلبات العشوائية والتقريب بحذر. لكن السؤال الأكبر لا يزال مفتوحًا: كيف نقارن بين دول مختلفة؟ فرغم إمكانية مقارنة مصطلحات متعددة في Google Trends، إلا أن التمثيل المقارن بين الدول غير مدعوم مباشرة. الحل يكمن في إنشاء "سلة سلع" معيارية تُستخدم كمقياس موحد، وهو موضوع مُخطط له في مقال لاحق. باختصار، Google Trends مفيد، لكنه لا يُقدّم بيانات حقيقية. استخدامه في التعلم الآلي يتطلب وعيًا عميقًا بعملية التطبيع، وتطبيق طرق تصحيح دقيقة. المفتاح ليس في تجاهل التحديات، بل في فهمها، وتحويلها إلى حلول عملية.
