一般のエンジニアは、オープンソースプロジェクトを開始する前に何を考慮する必要がありますか?

7年前

超神経質で
OpenAI が GPT-2 をリリースする前は、そのオープンソースの振る舞いが学界や産業界に大騒動を引き起こしたことはおそらく想像もできなかったでしょう。もちろん、これは彼らの膨大な研究成果と高度な科学研究に大きく関係しています。

普通の開発者として、オープンソースのリスクと利点は何ですか?この記事では、オープンソースにする前に考慮する必要があるいくつかの問題と、著者の経験をリストします。

OpenAI はオープンソースですが、その結果はどうなるのでしょうか?

OpenAI が GPT-2 をリリースする前は、そのオープンソースの振る舞いが学界や産業界に大騒動を引き起こしたことはおそらく想像もできなかったでしょう。もちろん、これは彼らの膨大な研究成果と高度な科学研究に大きく関係しています。

普通の開発者として、オープンソースのリスクと利点は何ですか?この記事では、オープンソースにする前に考慮する必要があるいくつかの問題と、著者の経験をリストします。

OpenAI は先週、NLP 分野で最も先進的なテキスト生成モデルである GPT-2 を導入しましたが、最終的にはすべてのデータを公開しないことを決定しました。

「このテクノロジーの悪意のあるアプリケーションに関する懸念があるため、トレーニング済みのモデルはリリースしません。」

OpenAI による GPT-2 のリリースから、結果の一部のみがオープンソースになるという発表に至るまで、それは大きな論争を引き起こしました。すべてのデータがオープンソースであれば、悪意のある利用や犯罪さえ起こると考える人もいますが、オープン性を支持する人は、すべてのデータを公開しないと他の研究者が結果を再現することが困難になると考えています。

Anima Anankumar は、機械学習の理論とアプリケーションの調整された開発に専念しています。 OpenAI がこのモデルをリリースする決定をしたことに対する彼女の Twitter での反応は次のとおりです。

これは白黒はっきりする質問です。あなたは言語モデルを宣伝するためにメディアを利用しています。このテーマについては多くの研究があります。あなたは研究結果が素晴らしいと主張しますが、詳細は記者にのみ知らせます。知る権利があるのはジャーナリストではなく研究者だ。

ソーシャルメディアの反応を Stephen Merity 氏は要約し、機械学習コミュニティにはこの分野での経験があまりないと嘆いていました。

この日のまとめ (OpenAI について): 責任ある開示、二重使用、メディアとの関わり方などの観点から、この問題についてはまったく合意がありません。これは、この分野の内外の人々である私たち一人ひとりと密接に関係しているはずです。

多くの人がオープンソースの恩恵を受けていると思います。では、独立したエンジニア、あるいは企業や機関に所属するエンジニアとしての私たちに関して言えば、私たち自身のモデルはオープンソースであるべきでしょうか?

迷ったときに一歩を踏み出すためのガイドを誰かがまとめてくれました。

一般のエンジニア向けのオープンソースに関するハードコアなアドバイス

オープンソースを独自のモデルと考えるべきでしょうか?

もちろん！

最終的な結果に関係なく、オープンソースモデルの可能性を考慮し、オープンソースを完全に回避しないでください。ただし、モデルに個人データが含まれる場合は、犯罪者が逆コンパイルを通じて元のデータを取得するリスクを考慮する必要があります。

モデルがすべて公開データセットからのものである場合、何を心配する必要がありますか?

これらはすべて公開データセットからのものであっても、他の研究とは異なる研究方向や目的が新たな影響をもたらす可能性があります。

したがって、次の質問をする必要があります。たとえ公開データセットのみが使用されていたとしても、研究の方向性の違いはデータやモデルに何らかの影響を与えるのでしょうか?

たとえば、アラブの春の際には、一部の地域で暴動が発生し、頻繁に道路が閉鎖され、地元の若者がツイッターで苦情を申し立て、関連組織は敵の軍事ルートを分析するためにユーザーのコンテンツを利用した。

単一のデータは役に立たないように見えるかもしれませんが、データが結合されると、多くの機密性の高い結果が得られる可能性があります。

そこで、次の質問について考えてみましょう。モデル内の結合されたデータは、単一のデータポイントよりも機密性が高くなりますか?

オープンソース後のリスクをどのように評価するか?

セキュリティの観点から、「オープンソースではない」場合と「オープンソースだが悪用された」場合の影響を天秤にかけて、どちらがより深刻であるかを考えてください。 ?

たとえば、セキュリティ対策のコストは、保護されるデータの価値よりも高くなる可能性がありますが、期限が切れると、情報は非公開になるという前提があります。素晴らしい研究価値。

したがって、データセットの価値を効率的に特定して維持するには、不適切なセキュリティポリシーを適時に破棄する必要があります。

さらに、モデルの使用の複雑さと、悪者がモデルを悪用するしきい値を比較してください。どちらが簡単ですか?この影響を確認した上で、オープンソースにするかどうかを決定します。

OpenAI の場合、すべてのモデルを公開しなくても、インターネット上での悪意のある使用を防ぐのに十分だと考えている可能性があります。

しかし、業界の多くの人々にとって、たとえすべてのモデルを開封したとしても、紙を複製することは不可能である可能性があり、悪意を持って使用しようとする人は多大なコストを支払う必要があることも認めなければなりません。

オープンソースのリスクについてメディアが言っていることを信じるべきでしょうか?

いいえ。

メディアの説明は常に世論を導くものであり、ジャーナリストはより高い評価を求めており、センセーショナルな見出しや意見はより魅力的になります。ジャーナリストは、報道が容易になるという理由でオープンソースを好むかもしれませんが、その一方で、オープンソースを選択しないという決定は、前代未聞の噂につながる可能性があります（OpenAIの場合のように、それがオープンソースであるかどうかは関係ありません）。メディア記者によって誇張されている可能性があります）。

オープンソースのリスクに関する当局の意見は信頼できるのでしょうか?

どうやらそうではありません。

もちろん、その調査が合法的かつ合理的であることをまず確認する必要があります。これらの政府機関のスタッフは、世論の圧力をより懸念しているかもしれません。したがって、彼らの視点は、ソースキーをオープンするかどうかを判断することではありません。

しかし、ジャーナリストと同様に、私たちは政府を重要なパートナーとみなすだけでなく、お互いに異なる要求があることを認識する必要があります。

オープンソース化後のネガティブなユースケースに対処するソリューションを考えるべきでしょうか?

はい！

今回、OpenAI がうまく機能しなかったのはこの点です。このモデルをフェイクニュースの作成に使用できる場合、フェイクニュースもさらに検出される可能性があります。たとえば、人間が書いた出力と OpenAI モデルの出力をより正確に区別するためのテキスト分類タスクを作成します。

Facebook、WeChat、およびさまざまなメディア Web サイトは、フェイクニュースや噂との闘いに多大な努力を払ってきましたが、OpenAI によるこの調査は明らかにフェイクニュースとの闘いに役立つでしょうか?

OpenAI が短期間で解決策を見つけられるのは当然ですが、彼らはそうしませんでした。

モデルのネガティブなユースケースとポジティブなユースケースのバランスに注意を払う必要があるでしょうか?

はい。

医療、セキュリティ、環境保護など、積極的な用途を想定したモデルをリリースすることで、社会運営のあらゆる側面に貢献しやすくなります。

OpenAI のもう 1 つの初期の失敗は、研究の多様性の欠如です。 OpenAI は、英語とその他のいくつかの言語でのみ利用できる調査結果を公開しました。しかし、英語は世界の会話のわずか 5% を占めています。文内の単語の順序、標準化されたスペル、機械学習機能の基本単位としての「単語」の使用方法に関しては、英語に当てはまることが他の言語には当てはまらない場合があります。

OpenAI は科学研究分野の先駆者として、他の言語タイプの研究を試み、より支援が必要な言語や地域を支援する責任もあります。 Q

モデルをオープンソース化する前に、データをどの程度まで感度を下げる必要がありますか?

フィールドレベルに対して感度を下げ、少なくともフィールドレベルから評価を開始することをお勧めします。

たとえば、私が AWS で働いており、固有表現認識サービスを担当していたとき、番地レベルの住所を明示的なフィールドとして認識するかどうか、また特定の座標をその住所にマッピングするかどうかを検討する必要がありました。

これは本質的に非常に機密性の高い個人情報であるため、特に営利企業によって製品化される場合には考慮する必要があります。したがって、どのような研究プロジェクトでも次のことを考慮してください。重要なデータは感度を下げられていますか?

他の人がオープンソースにできると言っているのに、自分のモデルをオープンソースにするべきでしょうか?

いいえ、ご自身の判断で判断してください。

OpenAIの決定に同意するかどうかに関係なく、ネットユーザーの意見に盲目的に従うのではなく、OpenAI自身が最終決定を下します。

原文：ロバート・マンロー

編纂：ナーバスミスシスター