HyperAIHyperAI

Command Palette

Search for a command to run...

ما تكشفه تسريبات GPT-oss عن بيانات تدريب OpenAI: أدلة على تدريب GPT-5 على محتوى من مواقع إباحية

كشفت دراسة حديثة حول نموذج GPT-oss، الذي أطلقه OpenAI بوزن مفتوح، عن أدلة قوية على أن نماذج GPT-5 وGPT-oss تم تدريبها على عبارات من مواقع إباحية، مما يثير تساؤلات حول خصوصية بيانات التدريب وشفافيتها. على الرغم من أن OpenAI لم يُفصح عن مصادر البيانات المستخدمة، إلا أن تحليل مصفوفات التضمين (embeddings) في النموذج المفتوح يكشف تفاصيل دقيقة عن تركيبة التدريب. استخدم الباحثون تحليلًا لمعامِلات L2 النورم لكل رمز في قاموس الترميز o200k المستخدم منذ GPT-4o، ووجدوا أن هناك 936 رمزًا ذات نورم منخفض جدًا، تشير إلى أنها لم تُستخدم في التدريب، وربما تم تقليل وزنها بواسطة تقنية "الانكماش" (weight decay). لكن الأهم هو اكتشاف رموز ذات نورم مرتفع، خاصة بين الرموز غير اللاتينية، مثل: "毛片免费观看" (مشاهدة أفلام إباحية مجانية)، و"北京赛车怎么" (كيف تلعب في سباق بكين)، و"久久综合网" (موقع إباحي)، و"一本道高清无码" (محتوى غير مُشفَّر عالي الجودة). هذه العبارات تُعتبر شائعة في محتوى المواقع الإباحية والمقامرة في الصين. عند طلب ترجمة هذه الرموز، أظهرت النماذج، بما في ذلك GPT-5، معرفة دقيقة بمعانيها، رغم تجنبها التصريح الصريح بالمعنى غير اللائق. هذا يشير إلى أن هذه العبارات ظهرت فعلاً في بيانات التدريب، ما يُعد دليلاً على "استقراء العضوية" (membership inference)، وهي تقنية تُستخدم لتحديد ما إذا كانت عبارة معينة جزءًا من مجموعة بيانات التدريب، وهي نادرة الحدوث في النماذج الإنتاجية. أظهرت تجارب مقارنة مع نماذج أخرى مثل Claude 4 أن النماذج تُعرف هذه الرموز بدقة عالية، مما يعزز الاحتمال بأنها موجودة في بيانات OpenAI. كما وجد الباحثون ارتباطًا إحصائيًا (معامل سبيرمان 0.448) بين عدد مرات ظهور هذه الرموز في GitHub واعتراف النماذج بها، ما يشير إلى أن GitHub قد يكون مصدرًا محتملاً لجزء من هذه البيانات. المفارقة الأكبر أن هذه الرموز، رغم كونها غير شائعة أو مُستَخدَمة بشكل محدود، حظيت بوزن عالي في التضمين، بينما الرموز المألوفة لم تُعَلَّم بنفس الدرجة. هذا يشير إلى أن التدريب قد يكون شمل محتوى منخفض الجودة أو مُضطرب، ربما بسبب تدريبات مكثفة على التفكير المنطقي أو البرمجة، حيث تُعطى أولوية للرموز ذات القيمة التحليلية. النتيجة الرئيسية: النماذج المفتوحة مثل GPT-oss، رغم فوائدها في التحقق والبحث، تُعدّ منافذ جديدة لاستخلاص معلومات حساسة عن بيانات التدريب، مما يفرض على الشركات الرائدة مثل OpenAI إعادة النظر في تدريب قواميس الترميز، وحذف الرموز النادرة أو غير المناسبة. كما أن هذه الظاهرة تُظهر كيف يمكن لتحليل الوزن أن يُكشف عن أسرار تُعتبر "سرًا تجاريًا"، مما يُبرز أهمية الشفافية والمسؤولية في تطوير الذكاء الاصطناعي.

الروابط ذات الصلة

ما تكشفه تسريبات GPT-oss عن بيانات تدريب OpenAI: أدلة على تدريب GPT-5 على محتوى من مواقع إباحية | القصص الشائعة | HyperAI