ما الذي يجب على المهندس العادي مراعاته قبل فتح مشروع مفتوح المصدر؟

بقلم سوبر نيرو
قبل أن تقوم شركة OpenAI بإصدار GPT-2، ربما لم تكن لتتخيل أن سلوكها مفتوح المصدر من شأنه أن يسبب ضجة في الأوساط الأكاديمية والصناعة. وبطبيعة الحال، يعود الفضل في ذلك أيضًا إلى حد كبير إلى نتائج أبحاثهم الرائعة والمستوى العالي من البحث العلمي.
كمطور عادي، ما هي المخاطر والفوائد المرتبطة بالمصدر المفتوح؟ تسرد هذه المقالة العديد من القضايا التي يجب مراعاتها قبل التحول إلى المصدر المفتوح، فضلاً عن تجربة بعض المؤلفين.
OpenAI هو مفتوح المصدر، ما هي النتيجة؟
قبل أن تقوم شركة OpenAI بإصدار GPT-2، ربما لم تكن لتتخيل أن سلوكها مفتوح المصدر من شأنه أن يسبب ضجة في الأوساط الأكاديمية والصناعة. وبطبيعة الحال، يعود الفضل في ذلك أيضًا إلى حد كبير إلى نتائج أبحاثهم الرائعة والمستوى العالي من البحث العلمي.
كمطور عادي، ما هي المخاطر والفوائد المرتبطة بالمصدر المفتوح؟ تسرد هذه المقالة العديد من القضايا التي يجب مراعاتها قبل التحول إلى المصدر المفتوح، فضلاً عن تجربة بعض المؤلفين.
قدمت شركة OpenAI نموذج GPT-2، وهو نموذج توليد النصوص الأكثر تقدمًا في مجال معالجة اللغة الطبيعية (NLP) الأسبوع الماضي، ولكنها قررت أخيرًا عدم جعل جميع البيانات عامة. السبب المذكور هو:
"لن ننشر النماذج المدربة بسبب المخاوف بشأن التطبيقات الضارة للتكنولوجيا."

منذ أن أصدرت OpenAI برنامج GPT-2 حتى أعلنت أن جزءًا فقط من النتائج سيكون مفتوح المصدر، فقد تسبب ذلك في جدل كبير. يعتقد البعض أنه إذا كانت جميع البيانات مفتوحة المصدر، فمن المؤكد أنها ستستخدم بشكل خبيث وحتى تؤدي إلى الجريمة؛ في حين يعتقد أولئك الذين يؤيدون الانفتاح أنه إذا لم يتم نشر جميع البيانات، فسيكون من الصعب على الباحثين الآخرين إعادة إنتاج النتائج.
تعمل أنيما أنانكومار على التطوير المنسق لنظرية التعلم الآلي وتطبيقاته. ردت على قرار OpenAI بإصدار النموذج على تويتر:

هذه قضية بالأبيض والأسود. أنت تستخدم وسائل الإعلام لتضخيم نماذج اللغة. هناك الكثير من الأبحاث حول هذا الموضوع. تزعم أن النتائج مذهلة ولكنك لا تسمح إلا للصحفيين بمعرفة التفاصيل. إن الباحثين، وليس الصحفيين، هم الذين يجب أن يكون لهم الحق في المعرفة.
وقد لخص ستيفن ميريتي الاستجابة على وسائل التواصل الاجتماعي من خلال إبداء أسفه لأن مجتمع التعلم الآلي لا يتمتع بخبرة كبيرة في هذا المجال:

ملخص اليوم (حول OpenAI): لم نتوصل إلى أي توافق بشأن الإفصاح المسؤول، أو الاستخدام المزدوج، أو كيفية التفاعل مع وسائل الإعلام. ويجب أن يكون هذا مرتبطًا ارتباطًا وثيقًا بكل واحد منا، سواء داخل الميدان أو خارجه.
أعتقد أن العديد من الأشخاص استفادوا من المصدر المفتوح. فهل ينبغي لنا، باعتبارنا مهندسين مستقلين أو مهندسين تابعين لشركات أو مؤسسات، أن نجعل نماذجنا الخاصة مفتوحة المصدر؟
لقد قام شخص ما بتلخيص دليل يمكن أن يرشدك إلى التفكير خطوة أخرى للأمام عندما تشعر بالتردد.
نصائح صارمة حول المصادر المفتوحة للمهندسين العاديين
هل يجب عليك أن تفكر في جعل نموذجك الخاص مفتوح المصدر؟
بالطبع!
مهما كانت النتيجة النهائية، فكر في إمكانية جعل نموذجك مفتوح المصدر، ولا تتجنبه تمامًا. ومع ذلك، إذا كان نموذجك يتضمن بيانات خاصة، فيجب عليك أن تأخذ في الاعتبار خطر حصول المجرمين على البيانات الأصلية من خلال فك التجميع.
ما الذي يجب أن أقلق بشأنه إذا كان النموذج يأتي بالكامل من مجموعات بيانات عامة؟
حتى لو كانت جميعها تأتي من مجموعات بيانات عامة، فإن الاختلافات في اتجاهات البحث وأغراضه عن الآخرين قد تؤدي إلى تأثيرات جديدة.
ومن ثم، هناك سؤال يجب طرحه: حتى لو تم استخدام مجموعات البيانات العامة فقط، فهل سيكون لاتجاهات البحث المختلفة أي تأثير على البيانات أو النماذج؟
على سبيل المثال، خلال الربيع العربي، كانت بعض المناطق مغلقة في كثير من الأحيان بسبب الاضطرابات، وقد اشتكى الشباب المحليون على تويتر. استخدمت المنظمات ذات الصلة محتوى مستخدمي تويتر لمراقبة وتحليل المسارات العسكرية للعدو.
قد تبدو قطعة واحدة من البيانات عديمة الفائدة، ولكن بمجرد دمج البيانات، فقد تنتج العديد من النتائج الحساسة.
لذا، فكر في هذا السؤال: هل البيانات المجمعة في النموذج أكثر حساسية من نقطة بيانات واحدة؟

كيفية تقييم المخاطر بعد المصدر المفتوح؟
عند النظر إلى الأمن، نحتاج إلى تقييم تأثير "عدم فتح المصدر" و"المصدر المفتوح ولكن إساءة استخدامه"، ومعرفة أيهما أكثر خطورة. ؟
قد تكون تكلفة التدابير الأمنية أعلى من قيمة البيانات التي يتم حمايتها، حيث يجب اعتبار كل سياسة "قابلة للتغيير". على سبيل المثال، بعض المعلومات تنطوي على الخصوصية، ولكنها تخضع لشرط التوقيت. وبمجرد انتهاء الوقت، فإن المعلومات لم تعد خاصة، ولكنها لا تزال تتمتع بقيمة بحثية كبيرة.
لذلك، يجب التخلي عن استراتيجيات الأمن السيئة في الوقت المناسب لتحديد قيمة مجموعات البيانات والحفاظ عليها بكفاءة.
بالإضافة إلى ذلك، قم بوزن مدى تعقيد استخدام النموذج والعتبة التي يمكن للأشرار استغلاله بها. أيهما أسهل؟ بعد التأكد من هذا التأثير، قرر ما إذا كنت تريد جعله مفتوح المصدر أم لا.
في حالة OpenAI، ربما اعتقدوا أن عدم فتح النموذج بأكمله سيكون كافياً لمنع الاستخدام الضار على الإنترنت.
ومع ذلك، لا بد من الاعتراف بأنه بالنسبة للعديد من الأشخاص في الصناعة، حتى لو كانت جميع النماذج مفتوحة، فقد لا يتمكنون من إعادة إنتاج الورقة، وسوف يتكبدون أيضًا تكاليف كبيرة أولئك الذين يعتزمون استخدامها بشكل خبيث.
هل يجب أن أصدق ما تقوله وسائل الإعلام حول مخاطر المصدر المفتوح؟
لا.
إن أوصاف وسائل الإعلام دائمًا ما توجه الرأي العام. يريد الصحفيون عددًا أكبر من القراء، لذا فإن العناوين والآراء المثيرة تكون أكثر جاذبية. قد يفضل الصحفيون المصدر المفتوح لأنه يسهل عليهم الإبلاغ عنه. من ناحية أخرى، فإن القرار بعدم فتح المصدر قد يؤدي إلى شائعات مبالغ فيها (كما هو الحال مع OpenAI، حيث سيتم تضخيم كل من المصدر المفتوح والمغلق من قبل المراسلين الإعلاميين).
هل يجب علينا أن نثق في آراء الإدارات المعنية بشأن مخاطر المصادر المفتوحة؟
من الواضح أن لا.
بالطبع، يجب عليك أولاً التأكد من أن بحثك قانوني ومعقول. قد لا يكون موظفو هذه الهيئات الحكومية محترفين. ربما يكونون أكثر قلقا بشأن ضغط الرأي العام. كما يقول المثل، "لا مشكلة هي أمر جيد"، وبالتالي فإن آراءهم ليست المفتاح للحكم على ما إذا كان ينبغي فتح المصدر أم لا.
ومع ذلك، وكما هو الحال مع الصحفيين، يتعين علينا أيضًا أن ننظر إلى الحكومة باعتبارها شريكًا مهمًا مع إدراك أن كل جانب لديه مطالب مختلفة.

هل يجب علينا أن نفكر في حلول لحالات الاستخدام السلبية بعد المصدر المفتوح؟
نعم!
وهذا هو المكان الذي لم تنجح فيه OpenAI هذه المرة. إذا كان من الممكن استخدام النموذج لإنشاء أخبار كاذبة، فمن الممكن أيضًا اكتشاف الأخبار الكاذبة بشكل أكبر. على سبيل المثال، إنشاء مهمة تصنيف النص للتمييز بشكل أكثر دقة بين ما يكتبه البشر ومخرجات نموذج OpenAI.
تبذل مواقع التواصل الاجتماعي فيسبوك ووي تشات ومواقع التواصل الاجتماعي المختلفة جهودا حثيثة لمكافحة الأخبار الكاذبة والشائعات. من الواضح أن هذا البحث الذي أجرته OpenAI يمكن أن يقدم المساعدة. هل يمكن اكتشاف مخرجات هذا النموذج بطريقة فعالة لمكافحة الأخبار المزيفة؟
منطقيًا، كان بإمكان OpenAI التوصل إلى حل خلال فترة قصيرة من الزمن، لكنها لم تفعل.
هل يجب علينا الاهتمام بموازنة حالات الاستخدام السلبية والإيجابية للنموذج؟
نعم.
ومن خلال نشر نماذج ذات تطبيقات إيجابية، مثل الرعاية الصحية والأمن وحماية البيئة، يصبح من السهل المساهمة في كل جانب من جوانب العمل الاجتماعي.
كان أحد الإخفاقات الأولية لشركة OpenAI هو الافتقار إلى التنوع في أبحاثها. البحث الذي أصدرته OpenAI متاح فقط باللغة الإنجليزية وبعض اللغات الأخرى. لكن اللغة الإنجليزية تمثل 5% فقط من المحادثات في العالم. ما ينطبق على اللغة الإنجليزية قد لا ينطبق على اللغات الأخرى، فيما يتعلق بترتيب الكلمات في الجمل، والتهجئة الموحدة، وكيفية استخدام "الكلمات" كوحدات ذرية لوظائف التعلم الآلي.
باعتبارها رائدة في مجال البحث العلمي، تقع على عاتق OpenAI أيضًا مسؤولية محاولة إجراء أبحاث في أنواع أخرى من اللغات ومساعدة اللغات والمناطق الأكثر احتياجًا. س
إلى أي مدى ينبغي إخفاء هوية البيانات قبل نموذج المصدر المفتوح؟
من المستحسن إجراء إزالة التحسس على مستوى الحقل، أو على الأقل البدء في التقييم من مستوى الحقل.
على سبيل المثال، عندما كنت أعمل في AWS، كنت مسؤولاً عن خدمة التعرف على الكيانات المسماة، وكان عليّ أن أفكر فيما إذا كان ينبغي التعرف على عنوان مستوى الشارع كحقل صريح وما إذا كان ينبغي تعيين إحداثيات محددة للعنوان.
وهذه في الأساس معلومات خاصة حساسة للغاية، ويجب أخذها في الاعتبار خاصة عندما يتم إنتاجها من قبل شركات تجارية. لذا، ضع هذا في الاعتبار في أي مشروع بحثي: هل تم إخفاء هوية البيانات المهمة؟
هل يجب أن أجعل نموذجي مفتوح المصدر عندما يقول الآخرون أنه يمكن أن يكون مفتوح المصدر؟
لا، يجب عليك استخدام حكمك الخاص.
سواء كنت توافق على قرار OpenAI أم لا، فإنهم يتخذون القرار النهائي بأنفسهم بدلاً من اتباع آراء مستخدمي الإنترنت بشكل أعمى.

المقال الأصلي: روبرت مونرو
تم تجميعها بواسطة: الآنسة العصبية