HyperAI

Was Sollte Ein Normaler Ingenieur Bedenken, Bevor Er Ein Open-Source-Projekt Startet?

vor 6 Jahren
Schlagzeilen
Empfohlene Liste
Dao Wei
特色图像

Von Super Neuro

Bevor OpenAI GPT-2 veröffentlichte, hätte es sich wahrscheinlich nicht vorstellen können, dass sein Open-Source-Verhalten in der Wissenschaft und Industrie für Aufsehen sorgen würde. Dies ist natürlich auch zu einem großen Teil auf die hervorragenden Forschungsergebnisse und das hohe Niveau der wissenschaftlichen Forschung zurückzuführen. 
 
Welche Risiken und Vorteile bietet Open Source für einen normalen Entwickler? Dieser Artikel listet mehrere Probleme auf, die vor der Open Source-Veröffentlichung berücksichtigt werden müssen, sowie die Erfahrungen einiger Autoren.

OpenAI ist Open Source. Was ist das Ergebnis?

Bevor OpenAI GPT-2 veröffentlichte, hätte es sich wahrscheinlich nicht vorstellen können, dass sein Open-Source-Verhalten in der Wissenschaft und Industrie für Aufsehen sorgen würde. Dies ist natürlich auch zu einem großen Teil auf die hervorragenden Forschungsergebnisse und das hohe Niveau der wissenschaftlichen Forschung zurückzuführen. 

Welche Risiken und Vorteile bietet Open Source für einen normalen Entwickler? Dieser Artikel listet mehrere Probleme auf, die vor der Open Source-Veröffentlichung berücksichtigt werden müssen, sowie die Erfahrungen einiger Autoren.

OpenAI hat letzte Woche GPT-2 vorgestellt, das fortschrittlichste Textgenerierungsmodell im Bereich NLP, hat sich jedoch letztendlich dazu entschieden, nicht alle Daten öffentlich zu machen. Als Grund wird angegeben:  

„Wir werden die trainierten Modelle nicht veröffentlichen, da wir Bedenken hinsichtlich einer böswilligen Anwendung der Technologie haben.“ 

Von der Veröffentlichung von GPT-2 durch OpenAI bis zu der Ankündigung, dass nur ein Teil der Ergebnisse Open Source sein würde, kam es zu enormen Kontroversen. Manche Leute glauben, dass, wenn alle Daten Open Source wären, sie mit Sicherheit böswillig verwendet würden und sogar zu Kriminalität führen würden. Während die Befürworter der Offenheit der Ansicht sind, dass es für andere Forscher schwierig sein wird, die Ergebnisse zu reproduzieren, wenn nicht alle Daten öffentlich gemacht werden.

Anima Anankumar arbeitet an der koordinierten Entwicklung der Theorie und Anwendung des maschinellen Lernens. Sie reagierte auf Twitter auf die Entscheidung von OpenAI, das Modell zu veröffentlichen: 

Dies ist eine Schwarz-Weiß-Angelegenheit. Sie nutzen die Medien, um Sprachmodelle hochzujubeln. Zu diesem Thema gibt es zahlreiche Untersuchungen. Sie behaupten, die Ergebnisse seien erstaunlich, teilen Journalisten jedoch nur die Einzelheiten mit. Es sind die Forscher, nicht die Journalisten, die das Recht haben sollten, es zu erfahren.

Stephen Merity fasste die Reaktion in den sozialen Medien mit der Beklagten zusammen, dass die Community des maschinellen Lernens auf diesem Gebiet nicht viel Erfahrung habe:  

Zusammenfassung des Tages (über OpenAI): Wir haben keinen Konsens über verantwortungsvolle Offenlegung, doppelte Verwendung oder den Umgang mit den Medien erzielt. Dies sollte für jeden von uns sowohl innerhalb als auch außerhalb des Fachgebiets von großer Bedeutung sein.

Ich glaube, dass viele Menschen von Open Source profitiert haben. Sollten wir als unabhängige oder mit Unternehmen oder Institutionen verbundene Ingenieure unsere eigenen Modelle als Open Source veröffentlichen? 

Jemand hat einen Leitfaden zusammengefasst, der Ihnen helfen kann, einen Schritt weiter zu denken, wenn Sie zögern. 

Hardcore-Open-Source-Ratschläge für normale Ingenieure

Sollten Sie erwägen, Ihr eigenes Modell als Open Source bereitzustellen?  

Natürlich!

Wie auch immer das Endergebnis aussehen wird, ziehen Sie die Möglichkeit in Betracht, Ihr Modell als Open Source bereitzustellen, und vermeiden Sie es nicht gänzlich. Wenn Ihr Modell jedoch private Daten enthält, müssen Sie das Risiko berücksichtigen, dass Kriminelle durch Dekompilierung an die Originaldaten gelangen.

Worüber sollte ich mir Sorgen machen, wenn das Modell vollständig aus öffentlichen Datensätzen stammt?

Auch wenn sie alle aus öffentlichen Datensätzen stammen, können die Unterschiede in den Forschungsrichtungen und -zielen zu anderen neue Auswirkungen haben. 

Daher muss eine Frage gestellt werden: Werden unterschiedliche Forschungsrichtungen Auswirkungen auf die Daten oder Modelle haben, selbst wenn nur öffentliche Datensätze verwendet werden? 

Während des Arabischen Frühlings beispielsweise wurden bestimmte Gebiete aufgrund von Unruhen häufig gesperrt, und die jungen Leute vor Ort beschwerten sich auf Twitter. Relevante Organisationen nutzten die Inhalte von Twitter-Nutzern, um die Militärrouten des Feindes zu überwachen und zu analysieren. 

Ein einzelnes Datenelement mag nutzlos erscheinen, doch wenn die Daten kombiniert werden, können viele sensible Ergebnisse entstehen. 

Stellen Sie sich also die folgende Frage: Sind die im Modell kombinierten Daten sensibler als ein einzelner Datenpunkt? 

Wie sind die Risiken nach Open Source einzuschätzen?

In Bezug auf die Sicherheit müssen wir die Auswirkungen von „keine Open Source-Software“ und „Open Source, aber Missbrauch“ abwägen und sehen, welche Variante schwerwiegender ist. ?

Die Kosten für Sicherheitsmaßnahmen können höher sein als der Wert der zu schützenden Daten, da jede Richtlinie als „veränderbar“ betrachtet werden sollte. Beispielsweise sind manche Informationen zwar vertraulich, unterliegen aber der Aktualität. Nach Ablauf der Zeit sind die Informationen nicht mehr privat, haben aber immer noch einen hohen Forschungswert. 

Daher müssen schlechte Sicherheitsstrategien rechtzeitig aufgegeben werden, um den Wert von Datensätzen effizient zu erkennen und zu erhalten. 

Wägen Sie außerdem die Komplexität der Verwendung des Modells und die Hürde ab, mit der Bösewichte es ausnutzen können. Was ist einfacher? Nachdem Sie diese Auswirkungen bestätigt haben, entscheiden Sie, ob Sie es als Open Source veröffentlichen möchten. 

Im Fall von OpenAI dachte man möglicherweise, dass es ausreichen würde, nicht das gesamte Modell zu öffnen, um böswillige Nutzung im Internet zu verhindern.

Allerdings muss man zugeben, dass es für viele Leute in der Branche nicht unbedingt möglich ist, das Papier zu reproduzieren, selbst wenn alle Modelle offen sind, und dass es für diejenigen, die es in böswilliger Absicht verwenden wollen, auch teuer wird.

Soll ich glauben, was die Medien über die Risiken von Open Source sagen?  

NEIN. 

Medienbeschreibungen beeinflussen stets die öffentliche Meinung. Journalisten wollen eine größere Leserschaft, daher sind sensationelle Schlagzeilen und Meinungen attraktiver. Journalisten bevorzugen möglicherweise Open Source, weil es für sie einfacher ist, darüber zu berichten. Andererseits kann die Entscheidung gegen Open Source zu ungeheuerlichen Gerüchten führen (wie im Fall von OpenAI werden sowohl Open Source als auch Closed Source von Medienreportern übertrieben dargestellt).

Sollten wir den Meinungen der zuständigen Abteilungen zu Open-Source-Risiken vertrauen?

Offensichtlich nicht. 

Natürlich müssen Sie zunächst sicherstellen, dass Ihre Recherche legal und sinnvoll ist. Das Personal dieser Regierungsbehörden ist möglicherweise nicht professionell. Sie sind möglicherweise eher besorgt über den Druck der öffentlichen Meinung. Wie das Sprichwort sagt: „Kein Ärger ist eine gute Sache“, daher sind ihre Meinungen nicht ausschlaggebend für die Entscheidung, ob Open Source veröffentlicht werden soll.  

Doch wie Journalisten sollten auch wir die Regierung als wichtigen Partner betrachten, uns gleichzeitig aber darüber im Klaren sein, dass jede Seite unterschiedliche Ansprüche hat. 

Sollten wir über Lösungen für negative Anwendungsfälle nach Open Source nachdenken?  

Ja! 

Hier hat OpenAI dieses Mal nicht gut abgeschnitten. Wenn das Modell zur Erstellung von Fake News verwendet werden kann, können Fake News auch weiter erkannt werden. Beispielsweise durch die Erstellung einer Textklassifizierungsaufgabe, um genauer zwischen dem von Menschen Geschriebenen und der Ausgabe des OpenAI-Modells zu unterscheiden.  

Facebook, WeChat und verschiedene Medien-Websites arbeiten hart daran, Fake News und Gerüchte zu bekämpfen. Diese Forschung von OpenAI kann offensichtlich Hilfe leisten. Können die Ergebnisse dieses Modells auf relevante Weise erkannt werden, um Fake News zu bekämpfen? 

Logischerweise hätte OpenAI innerhalb kurzer Zeit eine Lösung finden können, aber das ist nicht der Fall.

Sollten wir darauf achten, die negativen und positiven Anwendungsfälle des Modells auszugleichen?

Ja. 

Durch die Veröffentlichung von Modellen mit positiven Anwendungen, etwa im Gesundheitswesen, in der Sicherheit und im Umweltschutz, ist es einfach, zu jedem Aspekt des gesellschaftlichen Funktionierens beizutragen.  

Ein weiterer anfänglicher Misserfolg von OpenAI war der Mangel an Vielfalt in der Forschung. Die von OpenAI veröffentlichte Forschungsarbeit ist nur auf Englisch und einigen anderen Sprachen verfügbar. Allerdings wird Englisch nur zu 5 % der Gespräche weltweit gesprochen. Was für Englisch gilt, gilt möglicherweise nicht auch für andere Sprachen, insbesondere hinsichtlich der Wortreihenfolge in Sätzen, der standardisierten Rechtschreibung und der Verwendung von „Wörtern“ als atomare Einheiten für maschinelle Lernfunktionen. 

Als Pionier in der wissenschaftlichen Forschung trägt OpenAI auch die Verantwortung, die Forschung in anderen Spracharten auszuprobieren und Sprachen und Regionen zu unterstützen, die dies stärker benötigen. Q

Inwieweit sollten die Daten vor dem Open-Source-Modell anonymisiert werden?  

Es wird empfohlen, eine Desensibilisierung auf Feldebene durchzuführen oder zumindest die Bewertung auf Feldebene zu beginnen.

Als ich beispielsweise bei AWS arbeitete, war ich für den Named Entity Recognition Service verantwortlich und musste überlegen, ob die Adresse auf Straßenebene als explizites Feld erkannt und ob der Adresse bestimmte Koordinaten zugeordnet werden sollten. 

Dabei handelt es sich im Wesentlichen um sehr sensible private Informationen, die insbesondere dann berücksichtigt werden sollten, wenn sie von kommerziellen Unternehmen zu Produkten verarbeitet werden. Bedenken Sie dies also bei jedem Forschungsprojekt: Wurden kritische Daten anonymisiert?

Wenn andere sagen, dass sie Open Source verwenden können, sollte ich dann mein Modell Open Source verwenden? 

Nein, Sie sollten Ihr eigenes Urteilsvermögen einsetzen.  

Unabhängig davon, ob Sie mit der Entscheidung von OpenAI einverstanden sind oder nicht, treffen sie die endgültige Entscheidung selbst, anstatt blind der Meinung der Internetnutzer zu folgen. 

Originaltext: Robert Munro

Zusammengestellt von: Nervous Miss