HyperAI초신경

일반 엔지니어가 오픈소스 프로젝트를 열기 전에 고려해야 할 사항은 무엇입니까?

6년 전
헤드라인
추천 목록
Dao Wei
特色图像

Super Neuro에서

OpenAI가 GPT-2를 출시하기 전까지는 오픈 소스라는 점이 학계와 산업계에 큰 반향을 일으킬 것이라고는 상상도 못했을 겁니다. 물론 이는 뛰어난 연구 성과와 높은 수준의 과학 연구 덕분이기도 합니다. 
 
일반 개발자로서 오픈 소스의 위험과 이점은 무엇입니까? 이 글에서는 오픈 소스에 앞서 고려해야 할 몇 가지 문제와 몇몇 저자의 경험을 나열합니다.

OpenAI는 오픈 소스인데, 결과는 어떤가요?

OpenAI가 GPT-2를 출시하기 전까지는 오픈 소스라는 점이 학계와 산업계에 큰 반향을 일으킬 것이라고는 상상도 못했을 겁니다. 물론 이는 뛰어난 연구 성과와 높은 수준의 과학 연구 덕분이기도 합니다. 

일반 개발자로서 오픈 소스의 위험과 이점은 무엇입니까? 이 글에서는 오픈 소스에 앞서 고려해야 할 몇 가지 문제와 몇몇 저자의 경험을 나열합니다.

OpenAI는 지난주 NLP 분야에서 가장 진보된 텍스트 생성 모델인 GPT-2를 선보였지만, 결국 모든 데이터를 공개하지 않기로 결정했습니다. 그 이유는 다음과 같습니다.  

"이 기술이 악의적으로 적용될 수 있다는 우려로 인해 훈련된 모델을 공개하지 않을 것입니다." 

OpenAI가 GPT-2를 출시한 이후부터 결과의 일부만 오픈 소스로 공개하겠다고 발표할 때까지 엄청난 논란이 일어났습니다. 일부 사람들은 모든 데이터가 오픈 소스가 되면 반드시 악의적으로 사용되고 심지어 범죄로 이어질 것이라고 믿습니다. 반면, 개방성을 지지하는 사람들은 모든 데이터가 공개되지 않으면 다른 연구자들이 결과를 재현하기 어려울 것이라고 믿습니다.

아니마 아난쿠마르는 머신 러닝 이론과 응용 프로그램의 조정된 개발을 연구합니다. 그녀는 OpenAI가 해당 모델을 공개하기로 결정한 것에 대해 트위터에서 다음과 같이 답했습니다. 

이것은 흑백의 문제입니다. 당신은 미디어를 이용해 언어 모델을 과장 선전하고 있습니다. 이 주제에 대한 연구가 많이 있습니다. 당신은 결과가 놀랍다고 주장하지만 자세한 내용은 기자들에게만 알려줍니다. 알 권리가 있는 사람은 기자가 아니라 연구자입니다.

Stephen Merity는 머신 러닝 커뮤니티가 이 분야에 대한 경험이 많지 않다는 점을 한탄하며 소셜 미디어에서의 반응을 요약했습니다.  

오늘의 요약(OpenAI에 관하여): 책임 있는 공개, 이중 사용, 미디어와의 상호 작용 방법에 대해서는 아직 합의에 이르지 못했습니다. 이는 해당 분야 안팎에서 우리 각자에게 긴밀하게 관련되어야 합니다.

저는 많은 사람들이 오픈 소스로부터 이익을 얻었다고 믿습니다. 그렇다면 회사나 기관에 소속된 독립적인 엔지니어나 엔지니어로서 우리는 우리 자신의 모델을 오픈 소스로 공개해야 할까요? 

누군가가 주저할 때 한 단계 더 생각해 볼 수 있도록 안내하는 가이드를 요약해 놓았습니다. 

일반 엔지니어를 위한 핵심 오픈소스 조언

자신의 모델을 오픈 소스로 공개하는 것을 고려해야 할까요?  

물론!

최종 결과가 어떻든, 모델을 오픈 소스로 공개할 가능성을 고려하고, 아예 피하지 마세요. 하지만 모델에 개인 데이터가 포함되어 있는 경우 범죄자가 디컴파일을 통해 원본 데이터를 얻을 수 있는 위험을 고려해야 합니다.

모델이 전적으로 공개 데이터 세트에서 나온 경우 걱정해야 할 점은 무엇입니까?

모든 연구가 공개 데이터 세트에서 나왔다 하더라도, 다른 연구자들과의 연구 방향과 목적의 차이는 새로운 영향을 가져올 수 있습니다. 

따라서 다음과 같은 질문을 던져볼 수 있습니다. 공개 데이터 세트만 사용하더라도, 다른 연구 방향이 데이터나 모델에 영향을 미칠까요? 

예를 들어, 아랍의 봄 당시에는 불안으로 인해 일부 지역이 종종 봉쇄되었고, 지역 젊은이들은 트위터에 불평을 표시했습니다. 관련 기관들은 트위터 사용자의 콘텐츠를 활용해 적의 군사 이동 경로를 감시하고 분석했습니다. 

단일 데이터는 쓸모없는 것처럼 보일 수 있지만, 데이터를 결합하면 여러 가지 민감한 결과를 얻을 수 있습니다. 

그러면 이러한 질문을 생각해 보세요. 모델에 결합된 데이터는 단일 데이터 포인트보다 더 민감할까요? 

오픈 소스 이후의 위험을 어떻게 평가할 수 있나요?

보안을 고려할 때, "소스를 오픈하지 않는 것"과 "오픈 소스이지만 남용되는 것"의 영향을 평가하고, 어느 쪽이 더 심각한지 판단해야 합니다. ?

각 정책은 "변경 가능"하다고 간주되어야 하므로 보안 조치 비용은 보호되는 데이터의 가치보다 높을 수 있습니다. 예를 들어, 일부 정보는 개인정보 보호와 관련이 있지만 시의적절해야 합니다. 시간이 지나면 해당 정보는 더 이상 비밀이 아니지만 여전히 큰 연구 가치를 갖습니다. 

따라서 데이터 세트의 가치를 효율적으로 식별하고 유지하기 위해서는 잘못된 보안 전략을 적절한 시기에 폐기해야 합니다. 

또한, 모델을 사용하는 데 따르는 복잡성과 악의적인 사람들이 이를 악용할 수 있는 한계점을 고려하세요. 어느 것이 더 쉬운가요? 이러한 영향을 확인한 후 오픈 소스로 공개할지 여부를 결정하세요. 

OpenAI의 경우, 모델 전체를 공개하지 않아도 인터넷에서 악의적인 사용을 막기에 충분하다고 생각했을 수도 있습니다.

하지만 업계의 많은 사람들에게는 모든 모델이 공개되어도 논문을 복제하는 것이 반드시 가능한 것은 아니며, 악의적으로 이용하려는 사람들에게는 막대한 비용도 발생할 것이라는 점을 인정해야 합니다.

오픈 소스의 위험성에 관해 언론이 보도하는 내용을 믿어야 할까요?  

아니요. 

언론의 설명은 언제나 여론을 좌우한다. 기자들은 더 많은 독자를 원하기 때문에 선정적인 헤드라인과 의견이 더 매력적입니다. 언론인들은 보도하기가 더 쉽기 때문에 오픈 소스를 선호할 수도 있습니다. 반면, 오픈 소스를 공개하지 않기로 한 결정은 터무니없는 소문을 불러일으킬 수도 있습니다(OpenAI의 경우처럼, 오픈 소스와 클로즈드 소스 모두 미디어 기자들에 의해 과장될 것입니다).

오픈소스 위험에 대한 관련 부서의 의견을 믿어야 할까요?

당연히 그렇지 않습니다. 

물론, 먼저 귀하의 조사가 합법적이고 합리적인지 확인해야 합니다. 해당 정부 기관의 직원은 전문적이지 않을 수 있습니다. 그들은 여론의 압력에 대해 더 우려하고 있을 수도 있습니다. "문제가 없는 것이 좋다"는 말이 있듯이, 그들의 의견은 오픈 소스를 판단하는 핵심이 되지 않습니다.  

하지만 언론인과 마찬가지로 우리도 정부를 중요한 파트너로 여겨야 하며, 각 측의 요구 사항이 다르다는 점도 인식해야 합니다. 

오픈 소스 이후 부정적인 사용 사례에 대한 솔루션을 생각해야 할까요?  

예! 

이번에 OpenAI가 잘하지 못한 부분은 바로 이 부분입니다. 이 모델을 이용해 가짜 뉴스를 만들 수 있다면, 가짜 뉴스를 더욱 효과적으로 감지할 수도 있을 것이다. 예를 들어, 사람이 쓴 글과 OpenAI 모델의 출력을 더 정확하게 구분하기 위한 텍스트 분류 작업을 만드는 것입니다.  

Facebook, WeChat 및 다양한 미디어 웹사이트는 가짜 뉴스와 소문을 퇴치하기 위해 열심히 노력해 왔습니다. OpenAI의 이번 연구는 분명 도움이 될 수 있습니다. 이 모델의 출력을 가짜 뉴스를 퇴치하는 데 적절한 방식으로 감지할 수 있을까요? 

논리적으로 보면 OpenAI는 짧은 시간 안에 해결책을 내놓을 수도 있었지만, 그렇게 하지 않았습니다.

모델의 부정적 사용 사례와 긍정적 사용 사례의 균형을 맞추는 데 주의해야 할까요?

예. 

건강관리, 보안, 환경보호 등 긍정적인 적용이 가능한 모델을 출시함으로써 사회 운영의 모든 측면에 기여하기 쉽습니다.  

OpenAI의 초기 실패 중 하나는 연구의 다양성 부족이었습니다. OpenAI가 발표한 연구 자료는 영어와 몇 가지 다른 언어로만 제공됩니다. 하지만 영어는 전 세계 대화의 5%만을 차지합니다. 문장의 어순, 표준화된 철자법, 머신 러닝 기능의 원자 단위로 "단어"가 사용되는 방식과 관련하여 영어에 해당하는 것이 다른 언어에는 해당하지 않을 수 있습니다. 

과학 연구의 선구자로서 OpenAI는 다른 언어 유형에 대한 연구를 시도하고 도움이 더 필요한 언어와 지역을 돕는 책임도 있습니다. 

오픈 소스 모델을 도입하기 전에 데이터는 어느 정도까지 익명화되어야 합니까?  

필드 수준에서 감각 감소를 실시하거나 적어도 필드 수준에서 평가를 시작하는 것이 좋습니다.

예를 들어, AWS에서 일할 때 명명된 엔터티 인식 서비스를 담당했는데, 거리 수준 주소를 명시적 필드로 인식할지, 특정 좌표를 주소에 매핑할지 여부를 고려해야 했습니다. 

이는 본질적으로 매우 민감한 개인 정보이며, 특히 상업적 기업에서 상품화할 때 고려해야 할 사항입니다. 따라서 모든 연구 프로젝트에서 이 점을 고려해 보세요. 중요한 데이터의 식별 정보가 삭제되었나요?

다른 사람들이 오픈 소스를 공개할 수 있다고 하면, 나도 내 모델을 오픈 소스로 공개해야 할까요? 

아니요, 스스로 판단해야 합니다.  

OpenAI의 결정에 동의하든 동의하지 않든, 그들은 네티즌들의 의견을 맹목적으로 따르지 않고 스스로 최종 결정을 내립니다. 

원문: 로버트 먼로

편집자: Nervous Miss