HyperAI

تواجه منصات إخبارية كبيرة مثل صحيفة الغارديان والنيويورك تايمز تحديات متزايدة في حماية محتواها من الاستخدام غير المصرح به في تدريب نماذج الذكاء الاصطناعي، مما دفعها إلى تقييد وصول منظمة الإنترنت أرشيف (Internet Archive) إلى محتواها. تُعد المنظمة غير الربحية، التي تُعنى بحفظ الإنترنت عبر أداة "ماكينة الزمن" (Wayback Machine)، مصدرًا ثمينًا للمعلومات التاريخية، لكنها أصبحت أيضًا نقطة ضعف محتملة لشركات الذكاء الاصطناعي التي تستعين ببيانات الويب لتدريب نماذجها. كشفت الغارديان أن تحليل سجلات الوصول كشفت أن مُسَتَمِرَات الإنترنت أرشيف كانت من بين الأدوات التي تُستَخدم لاستخراج محتواها، ما دفعها إلى اتخاذ إجراءات وقائية. فقد قررت الحد من وصول المنظمة إلى صفحات المقالات المنشورة، وحظرت تكاملها مع واجهات برمجة التطبيقات (APIs) الخاصة بها، مع الحفاظ على ظهور صفحات المقدمة والمواضيع في ماكينة الزمن. واعتبر روبرت هان، مسؤول الشؤون التجارية، أن واجهات برمجة التطبيقات تمثل خطرًا أكبر من واجهة ماكينة الزمن نفسها، لأنها توفر بيانات منظمة وسهلة الاستخدام، مما يجعلها هدفًا جذابًا لشركات الذكاء الاصطناعي. كما أعلنت صحيفة金融 تايمز عن حظر جميع البوتات التي تحاول استخراج محتواها، بما في ذلك تلك التابعة للإنترنت أرشيف، نظرًا لأن معظم مقالاتها مُدفوعة، وتم تضمينها في ماكينة الزمن فقط إذا كانت مفتوحة للجمهور. وفي خطوة مماثلة، أعلنت ريدد أنّها ستقيّد وصول الإنترنت أرشيف إلى محتواها، بعد اكتشاف استخدامه لبيانات من منصتها في تدريب نماذج الذكاء الاصطناعي، رغم أن ريدد تُرخّص حاليًا محتواها لشركة جوجل مقابل ملايين الدولارات. الإنترنت أرشيف، بقيادة بروستر كاهلي، يرفض الادعاءات بأنه يسهل التسريب، ويؤكد أن المنظمة تستخدم أنظمة حماية داخلية مثل التقييد الزمني والفلاتر، لكنها لا تُحظر أي بوتات محددة عبر ملف robots.txt، ما يُبقيها مفتوحة أمام الاستخدام الجماعي. ومع ذلك، في يناير 2026، عدّلت المنظمة لغة ملف robots.txt لتكون أكثر تهذيبًا، بعد تقارير عن استخدامها في تدريب نماذج مثل T5 وLlama، كما أظهر تحليل لبيانات C4 أن نطاق web.archive.org كان من بين أكثر المواقع تكرارًا في البيانات التدريبية. تحليل لـ 1,167 موقعًا إخباريًا كشف أن 241 موقعًا من تسع دول تمنع على الأقل أحد البوتات المرتبطة بالإنترنت أرشيف، معظمها من مجموعة USA Today Co. (السابقة Gannett)، التي أعلنت عن سياسات جديدة لحماية محتواها، وحظرت 75 مليون بوت ذكاء اصطناعي في سبتمبر 2025، معظمها من OpenAI. رغم الدور الحيوي للإنترنت أرشيف في حفظ السجل الرقمي، فإن مساعيها في حماية المعلومات تُعرّضها لانتقادات من ناشري المحتوى الذين يرونها مصدرًا غير مراقب لاستغلال محتواهم. وتشير التقارير إلى أن هذه التحديات تعكس تناقضًا أخلاقيًا: نية حسنة في الحفاظ على التاريخ الرقمي قد تُستغل لصالح أهداف تجارية غير متوافقة مع مصالح الناشرين.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

ناشرون إخباريون يقيدون وصول الإنترنت أرشيف بسبب مخاوف من استغلال الذكاء الاصطناعي لجمع البيانات

الروابط ذات الصلة

Command Palette

ناشرون إخباريون يقيدون وصول الإنترنت أرشيف بسبب مخاوف من استغلال الذكاء الاصطناعي لجمع البيانات

الروابط ذات الصلة

Command Palette

ناشرون إخباريون يقيدون وصول الإنترنت أرشيف بسبب مخاوف من استغلال الذكاء الاصطناعي لجمع البيانات

الروابط ذات الصلة