HyperAI초신경

대기업이 데이터를 구매하는 관점에서 GAN 암호화에 대해 이야기해 보겠습니다.

7년 전
정보
Sparanoid
特色图像

Super Neuro에서

최근 중국에서 데이터 유출 의혹이 제기된 주요 사건이 폭로되었습니다. 무려 11개 기업이 연루되었고, 4,000GB에 달하는 수천억 건의 국민 정보가 압수됐습니다. 이 가운데는 국내 유명 빅데이터 기업도 영향을 받았다.

이 사건에 관련된 데이터는 매우 개인 정보입니다. 이 사건과 관련된 인터넷 URL 데이터에는 휴대전화 번호, 인터넷 기지국 코드 등 40개 이상의 정보 요소가 포함되어 있으며, 이는 휴대전화 이용자의 구체적인 인터넷 행동을 기록하고 있습니다. 일부 데이터는 국민 개인 계정의 홈페이지에 직접 입력될 수도 있습니다.

AI를 개발하려면 데이터를 확보하는 것은 불가피한가?

전 세계 모든 AI 회사의 R&D 엔지니어에게 대량의 실제 데이터를 확보하는 것은 AI 모델을 개발하는 데 매우 유용합니다. 데이터의 순도가 높으면 더 좋을 것입니다. 그들은 더욱 편리하게 데이터를 처리하고, 더욱 효율적으로 모델을 비교하고 평가하여 실제 문제에 대한 올바른 해결책을 제시할 수 있습니다.

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.

그러나 데이터 기밀성 문제로 인해 이 거대 기업들이 공유할 수 있는 데이터는 매우 제한적입니다. 따라서 대기업으로부터 데이터를 구매하는 일은 실제로 업계에서는 흔한 일입니다.

중국뿐만 아니라 전 세계 사용자들은 데이터의 개인정보 보호 및 기밀성에 대해 명확하게 이해하지 못하고 있습니다. 다양한 인터넷 상품을 이용할 때, 반드시 "이용약관"에서 "예"를 선택해야 합니다.

대기업이 데이터를 구매하면 그 다음은 어떻게 되나요?

대기업들은 데이터를 사기 위해 많은 돈을 썼으므로 당연히 이 데이터를 효율적으로 활용할 것입니다.

이들은 데이터를 구매하고, 자체 제품을 사용하여 데이터를 수집하며, 데이터를 보호하기 위해 보다 안전한 암호화 방법을 개발합니다.

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.

약자는 항상 약하고 강자는 항상 강하다는 것은 사실입니다.

엔지니어로서, 흔히 사용되는 여러 가지 데이터 암호화 방법과 그 속성 및 원리를 이해하는 방법에 대해 알아보겠습니다.

익명화된 데이터에 대한 본질적으로 불충분한 보호 메커니즘

현재 일반적으로 사용되는 데이터 공유 기밀 유지 메커니즘은 데이터 세트를 익명화하여 달성되지만, 대부분의 경우 여전히 좋은 솔루션이 아닙니다.

데이터 익명화는 일부 민감한 데이터를 마스킹하여 어느 정도 기밀성을 유지할 수 있지만, 데이터 전문가가 추론을 하는 것을 막을 수는 없습니다. 실제 응용 프로그램에서는 관련 정보의 역추론을 통해 숨겨진 민감한 데이터를 추론할 수 있습니다.

이전에 독일의 한 연구원이 다음과 같은 제목의 논문을 발표했습니다. 나만의 NSA를 만들어 보세요연구 논문에서는 데이터 익명화를 되돌리고 원래 정보를 찾는 방법에 대해 설명합니다.

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.

연구원은 가상 회사를 통해 약 300만 명의 독일인으로부터 한 달 치의 웹 클릭스트림 정보에 무료로 액세스할 수 있는 권한을 얻었습니다. 이 정보는 무작위 문자열 등을 사용하여 익명화됩니다. 「4vdp0qoi2kjaqgb」오다사용자의 실제 이름으로 대체하세요.

연구원은 사용자의 이전 검색 기록과 기타 관련 정보를 통해 웹사이트에서 사용자의 실명을 성공적으로 추론했습니다. 데이터 익명화로는 완전한 기밀성이 보장되지 않는다는 것을 알 수 있습니다.

카오스 커뮤니케이션 콩그레스는 유럽 최대의 해커 연합 조직인 독일 카오스 컴퓨터 클럽이 주최합니다. 주로 컴퓨터 및 네트워크 보안 문제를 연구하여 컴퓨터 및 네트워크 보안을 증진하는 것을 목표로 합니다.

이렇게 하여 동형암호가 탄생하게 되었다.

이는 암호학 분야의 획기적인 성과 중 하나입니다. 복호화기는 최종 결과만 알 수 있고 각 암호문의 구체적인 정보를 얻을 수 없습니다.

동형암호는 정보 보안을 효과적으로 강화할 수 있으며 앞으로 AI 분야의 핵심 기술이 될 수도 있지만, 현재로서는 적용 시나리오가 제한적입니다.

간단히 말해서, 동형 암호화는 내 데이터를 당신은 당신의 필요에 따라 사용할 수 있지만, 당신은 구체적으로 어떤 데이터인지 볼 수 없다는 것을 의미합니다.

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.

이 암호화 방법은 효과적이기는 하지만, 계산 비용이 너무 높습니다.

기본적인 동형 암호화 기술은 1MB의 데이터를 16GB로 변환할 수 있는데, 이는 AI 시나리오에서 매우 비용이 많이 듭니다. 게다가, 준동형 암호화 기술은(대부분의 암호화 알고리즘과 마찬가지로) 일반적으로 미분 불가능하므로 확률적 경사 하강법(SGD)과 같은 주류 AI 알고리즘에는 적합하지 않습니다.

현재, 동형암호 기술은 기본적으로 개념적 수준에 머물러 있어 실제 적용에 어려움이 있지만, 미래에는 희망이 있습니다.

GAN 암호화 기술에 대해 자세히 알아보세요

Google은 2016년에 다음과 같은 논문을 발표했습니다. "적대적 신경망 암호화를 이용한 통신 보호 방법 학습"본 논문에서는 데이터 공유 과정에서 발생하는 데이터 보호 문제를 효과적으로 해결할 수 있는 GAN 기반 암호화 기술을 자세히 소개합니다.

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.

이는 신경망을 기반으로 한 암호화 기술로, 일반적으로 XOR 연산을 수행하기 어렵기 때문에 암호화에 사용하기 어려운 것으로 간주됩니다.

하지만 신경망은 다른 신경망으로부터 데이터를 비밀로 유지하는 방법을 학습할 수 있습니다. 즉, 암호화나 복호화 알고리즘을 생성하지 않고도 모든 암호화 및 복호화 방법을 알아낼 수 있습니다.

GAN 암호화가 데이터를 보호하는 방법

GAN의 암호화 기술은 세 가지 측면을 포함하는데, 이를 앨리스, 밥, 이브의 사례를 통해 설명할 수 있습니다. 일반적으로 앨리스와 밥은 보안 통신의 두 종단이며, 이브는 두 사람의 통신을 모니터링하고 역으로 원래 데이터 정보를 찾으려고 노력합니다.

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.

앨리스는 앨리스가 입력한 비밀 메시지 P를 밥에게 보낸다. 앨리스가 이 입력을 처리하면 출력 C가 생성됩니다("P"는 "평문"을 의미하고 "C"는 "암호문"을 의미함).

밥과 이브는 둘 다 C를 받고 C로부터 P를 복구하려고 시도합니다(이러한 계산을 각각 PBob과 PEve로 표시합니다).

밥은 이브보다 유리한 점이 있습니다. 그와 앨리스는 비밀 키 K를 공유합니다.

이브의 목표는 간단합니다. P를 정확하게 재구성하는 것입니다(즉, P와 PEve 사이의 오차를 최소화하는 것입니다).

앨리스와 밥은 명확하게 의사소통을 하고 싶어하지만(P와 P밥 사이의 오차를 최소화하기 위해), 동시에 이브에게는 의사소통 내용을 숨기고 싶어합니다.

GAN 기술을 통해 앨리스와 밥은 함께 훈련을 받고, 이브의 감시를 피하는 법을 배우면서 성공적으로 정보를 전송합니다. 전체 프로세스에는 사전 설정된 알고리즘이 사용되지 않습니다. GAN의 원리에 따르면, 앨리스와 밥은 고정된 이브가 아닌 최고의 이브를 이길 수 있도록 훈련됩니다.

아래 그림에서 볼 수 있듯이, 약 8,000개의 학습 단계를 거치면 Bob과 Eve는 둘 다 원래 메시지를 재구성할 수 있습니다. 약 10,000개의 학습 단계를 거치면서 Alice와 Bob 네트워크는 Eve를 발견하고 그녀에게 간섭하기 시작했으며, 이로 인해 Eve의 오류율이 증가했습니다. 즉, 밥은 이브의 행동으로부터 배우고 통신을 보호하여 공격을 피하면서 정확한 메시지 재구성을 달성할 수 있습니다.

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.

AI 애플리케이션으로 돌아가면, GAN 암호화 기술은 높은 수준의 개인정보 보호를 유지하지 않고도 기업과 신경망 간에 정보를 교환하는 데 사용될 수 있습니다. 이는 AI 애플리케이션을 위한 실용적인 데이터 보호 솔루션입니다.

이 모델은 정보를 선택적으로 보호하는 방법을 학습하여 데이터 세트의 일부 요소는 암호화하지 않고, 이러한 민감한 데이터를 찾는 모든 형태의 추론을 차단함으로써 데이터 익명화의 단점을 효과적으로 우회할 수 있습니다.

Google 팀은 Alice와 Bob이 여전히 키를 공유하는 모델에 GAN 암호화 아키텍처를 적용했지만, 여기서 Alice는 A, B, C를 받고 암호문에서 D-public을 생성합니다.

밥과 이브는 둘 다 앨리스의 출력 D-public에 접근할 수 있습니다. 밥은 이를 사용하여 D에 대한 개선된 추정치를 생성하고, 이브는 이 근사치에서 C를 복구하기 위해 역추적 작업을 수행하게 합니다. 목표는 역방향 학습을 통해 C를 공개하지 않고도 D를 근사할 수 있으며, 이 근사치를 암호화된 정보와 키와 결합하여 Eve를 더 혼란스럽게 만들 수 있음을 보여주는 것입니다.

시스템이 정보를 올바르게 숨길 수 있는지 확인하기 위해 연구원들은 "블라인드 이브"라는 평가기를 만들었습니다. 이브는 C를 알지만, D-공개 키와 D-공개 키는 모릅니다. 이브는 C와 D-공개 키를 알고 있습니다.

이브의 재구성 오류가 블라인드 이브의 재구성 오류와 같다면, 이브가 유효한 정보를 성공적으로 추출하지 못했다는 것을 의미합니다. 몇 차례의 세션 이후, 이브는 더 이상 블라인드 이브에 비해 우위를 점하지 못했습니다. 이는 Eve가 C 값의 분포를 아는 것만으로는 C에 대한 정보를 재구성할 수 없음을 보여줍니다.

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.

현재 GAN 암호화는 주류 AI 애플리케이션에서 비교적 새로운 기술입니다. 하지만 개념적으로 GAN 암호화 기술을 이용하면 기업은 데이터 과학자와 데이터 세트를 공유하면서도 그 안에 담긴 민감한 데이터를 공개하지 않을 수 있습니다.

장기적으로 사용자의 신뢰를 얻고 법적 위기를 줄이려면 암호화 기술은 부차적입니다. 가장 중요한 것은 인터넷 회사가 사용자의 개인 정보를 존중하고 합리적으로 사용하는 것입니다.

슈퍼 뉴로피디아

단어

판별자

[dɪ'skrɪməˌneɪtə] 명사. 판별자

시그모이드

['sɪgmɔɪd]N. 시그모이드 함수

구절

생성적 적대 네트워크생성적 적대 신경망

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.

역사기사 (이미지를 클릭하시면 읽으실 수 있습니다)

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.

"기계 번역이 개발된 지 60년이 지났지만, 아직도 밋밋하다는 생각이 드시나요?"

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.

프랑스는 세계 1위의 기술 강국이 되기까지 조금 남았습니다.

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.

여기요! 생일 축하해, 튜링

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.

튜링이 AI의 아버지라면,

그러면 섀넌이 AI의 삼촌이 되어야 할까요?

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.

하이퍼AI

기술을 보는 다른 방식

에 집중하다

Data Hall에서 데이터를 구매하는 대기업의 GAN 암호화에 대해 이야기해 보겠습니다.