Que Doit Prendre En Compte Un Ingénieur Ordinaire Avant D’ouvrir Un Projet Open Source ?

Par Super Neuro
Avant qu'OpenAI ne publie GPT-2, il n'aurait probablement pas pu imaginer que son comportement open source provoquerait un émoi dans le monde universitaire et l'industrie. Bien sûr, cela est également dû en grande partie à leurs excellents résultats de recherche et à leur haut niveau de recherche scientifique.
En tant que développeur ordinaire, quels sont les risques et les avantages de l’open source ? Cet article énumère plusieurs questions à prendre en compte avant l'open source, ainsi que l'expérience de certains auteurs.
OpenAI est open source, quel est le résultat ?
Avant qu'OpenAI ne publie GPT-2, il n'aurait probablement pas pu imaginer que son comportement open source provoquerait un émoi dans le monde universitaire et l'industrie. Bien sûr, cela est également dû en grande partie à leurs excellents résultats de recherche et à leur haut niveau de recherche scientifique.
En tant que développeur ordinaire, quels sont les risques et les avantages de l’open source ? Cet article énumère plusieurs questions à prendre en compte avant l'open source, ainsi que l'expérience de certains auteurs.
OpenAI a présenté la semaine dernière GPT-2, le modèle de génération de texte le plus avancé dans le domaine du PNL, mais ils ont finalement décidé de ne pas rendre toutes les données publiques. La raison invoquée est :
« Nous ne publierons pas les modèles formés en raison de préoccupations concernant les applications malveillantes de la technologie. »

Depuis le moment où OpenAI a publié GPT-2 jusqu'au moment où il a annoncé que seule une partie des résultats serait open source, cela a suscité une énorme controverse. Certains pensent que si toutes les données sont open source, elles seront certainement utilisées de manière malveillante et même conduiront à des crimes ; tandis que ceux qui soutiennent l’ouverture estiment que si toutes les données ne sont pas rendues publiques, il sera difficile pour d’autres chercheurs de reproduire les résultats.
Anima Anankumar travaille sur le développement coordonné de la théorie et des applications de l'apprentissage automatique. Elle a répondu à la décision d’OpenAI de publier le modèle sur Twitter :

C’est une question de noir et blanc. Vous utilisez les médias pour vanter les modèles linguistiques. Il existe de nombreuses recherches sur ce sujet. Vous prétendez que les résultats sont étonnants, mais vous ne communiquez aux journalistes que les détails. Ce sont les chercheurs, et non les journalistes, qui devraient avoir le droit de savoir.
Stephen Merity a résumé la réaction sur les réseaux sociaux en déplorant que la communauté de l’apprentissage automatique n’ait pas beaucoup d’expérience dans ce domaine :

Résumé de la journée (à propos d’OpenAI) : Nous n’avons pas encore atteint de consensus sur la divulgation responsable, le double usage ou la manière d’interagir avec les médias. Cela devrait être étroitement lié à chacun d’entre nous, à l’intérieur comme à l’extérieur du domaine.
Je crois que de nombreuses personnes ont bénéficié de l’open source. Alors, en tant qu’ingénieurs indépendants ou affiliés à des entreprises ou des institutions, devrions-nous ouvrir le code source de nos propres modèles ?
Quelqu'un a résumé un guide qui peut vous aider à réfléchir un peu plus loin lorsque vous hésitez.
Conseils open source rigoureux pour les ingénieurs ordinaires
Devez-vous envisager d’ouvrir votre propre modèle en open source ?
Bien sûr!
Quel que soit le résultat final, envisagez la possibilité de rendre votre modèle open source et ne l’évitez pas complètement. Toutefois, si votre modèle implique des données privées, vous devez prendre en compte le risque que des criminels obtiennent les données originales par décompilation.
De quoi dois-je m’inquiéter si le modèle provient entièrement d’ensembles de données publics ?
Même si elles proviennent toutes d’ensembles de données publiques, les différences dans les orientations et les objectifs de recherche des autres peuvent avoir de nouveaux impacts.
Il faut donc se poser la question suivante : même si seuls des ensembles de données publics sont utilisés, les différentes orientations de recherche auront-elles un impact sur les données ou les modèles ?
Par exemple, pendant le Printemps arabe, certaines zones étaient souvent bloquées en raison de troubles, et les jeunes locaux se plaignaient sur Twitter. Les organisations concernées ont utilisé le contenu des utilisateurs de Twitter pour surveiller et analyser les itinéraires militaires de l’ennemi.
Une seule donnée peut sembler inutile, mais une fois combinées, elles peuvent produire de nombreux résultats sensibles.
Alors, réfléchissez à cette question : les données combinées dans le modèle sont-elles plus sensibles qu’un seul point de données ?

Comment évaluer les risques après l’open source ?
En ce qui concerne la sécurité, nous devons évaluer l’impact du fait de « ne pas être open source » et « être open source mais être abusé », et voir lequel est le plus grave. ?
Le coût des mesures de sécurité peut être supérieur à la valeur des données protégées, car chaque politique doit être considérée comme « modifiable ». Par exemple, certaines informations relèvent de la confidentialité, mais elles sont soumises à des délais de publication. Une fois le délai écoulé, l’information n’est plus privée, mais elle conserve une grande valeur de recherche.
Par conséquent, les mauvaises stratégies de sécurité doivent être abandonnées en temps opportun pour identifier et maintenir efficacement la valeur des ensembles de données.
De plus, évaluez la complexité d’utilisation du modèle et le seuil auquel les malfaiteurs peuvent l’exploiter. Qu'est-ce qui est le plus facile ? Après avoir confirmé cet impact, décidez si vous souhaitez l’ouvrir en source.
Dans le cas d’OpenAI, ils ont peut-être pensé que ne pas ouvrir l’intégralité du modèle suffirait à empêcher toute utilisation malveillante sur Internet.
Cependant, il faut admettre que pour beaucoup de gens du secteur, même si tous les modèles sont ouverts, il n'est pas forcément possible de reproduire le papier, et cela coûtera également très cher à ceux qui ont l'intention de l'utiliser de manière malveillante.
Dois-je croire ce que disent les médias sur les risques de l’open source ?
Non.
Les descriptions des médias guident toujours l’opinion publique. Les journalistes souhaitent un lectorat plus large, c’est pourquoi les titres et les opinions sensationnels sont plus attrayants. Les journalistes préfèrent peut-être utiliser l’open source car il leur est plus facile d’en rendre compte. D’un autre côté, la décision de ne pas ouvrir le code source peut donner lieu à des rumeurs scandaleuses (comme dans le cas d’OpenAI, les codes source ouverts et fermés seront tous deux exagérés par les journalistes des médias).
Devons-nous faire confiance aux avis des services compétents sur les risques liés à l’open source ?
Évidemment que non.
Bien entendu, vous devez d’abord vous assurer que votre recherche est légale et raisonnable. Le personnel de ces agences gouvernementales n’est peut-être pas professionnel. Ils sont peut-être davantage préoccupés par la pression de l’opinion publique. Comme le dit le proverbe, « pas de problème est une bonne chose », donc leurs opinions ne sont pas la clé pour juger s'il faut ouvrir le code source.
Cependant, comme les journalistes, nous devons également considérer le gouvernement comme un partenaire important, tout en sachant que chaque partie a des exigences différentes.

Devrions-nous réfléchir à des solutions aux cas d’utilisation négatifs après l’open source ?
Oui!
C’est là qu’OpenAI n’a pas bien réussi cette fois-ci. Si le modèle peut être utilisé pour créer de fausses nouvelles, alors les fausses nouvelles peuvent également être détectées. Par exemple, créer une tâche de classification de texte pour distinguer plus précisément ce qui est écrit par les humains et la sortie du modèle OpenAI.
Facebook, WeChat et divers sites de médias travaillent dur pour lutter contre les fausses nouvelles et les rumeurs. Cette recherche d’OpenAI peut évidemment apporter une aide. Les résultats de ce modèle peuvent-ils être détectés de manière pertinente pour lutter contre les fake news ?
Logiquement, OpenAI aurait pu trouver une solution en peu de temps, mais ils ne l’ont pas fait.
Devrions-nous prêter attention à l’équilibre entre les cas d’utilisation négatifs et positifs du modèle ?
Oui.
En publiant des modèles avec des applications positives, telles que les soins de santé, la sécurité et la protection de l’environnement, il est facile de contribuer à tous les aspects du fonctionnement social.
Un autre échec initial d’OpenAI a été le manque de diversité dans ses recherches. La recherche publiée par OpenAI n'est disponible qu'en anglais et dans quelques autres langues. Mais l’anglais ne représente que 5 % des conversations dans le monde. Ce qui est vrai pour l’anglais peut ne pas l’être pour d’autres langues, en ce qui concerne l’ordre des mots dans les phrases, l’orthographe standardisée et la façon dont les « mots » sont utilisés comme unités atomiques pour les fonctions d’apprentissage automatique.
En tant que pionnier de la recherche scientifique, OpenAI a également la responsabilité d'essayer des recherches dans d'autres types de langues et d'aider les langues et les régions qui en ont le plus besoin. Q
Dans quelle mesure les données doivent-elles être anonymisées avant le modèle open source ?
Il est recommandé d'effectuer une désensibilisation au niveau du terrain, ou au moins de commencer l'évaluation au niveau du terrain.
Par exemple, lorsque je travaillais chez AWS, j'étais responsable du service de reconnaissance des entités nommées et je devais déterminer s'il fallait reconnaître l'adresse au niveau de la rue comme un champ explicite et s'il fallait mapper des coordonnées spécifiques à l'adresse.
Il s’agit essentiellement d’informations privées très sensibles, et elles doivent être prises en considération, en particulier lorsqu’elles sont produites par des sociétés commerciales. Alors, pensez à ceci dans tout projet de recherche : les données critiques ont-elles été anonymisées ?
Quand d’autres disent qu’ils peuvent ouvrir le code source, dois-je ouvrir le code source de mon modèle ?
Non, vous devez utiliser votre propre jugement.
Que vous soyez d'accord ou non avec la décision d'OpenAI, ils prennent eux-mêmes la décision finale au lieu de suivre aveuglément les opinions des internautes.

Article original : Robert Munro
Compilé par : Nervous Miss