HyperAI超神经

Super Neuro에서

요즘 해커들이 다크웹에서 '화주 호텔 객실 예약 데이터'를 공개적으로 판매하고 있다는 소문이 돌고 있습니다. 판매자가 공개한 내용을 보면, 해당 데이터에는 화주 산하 호텔과 화주와 협력하는 AccorHotels 산하 호텔의 사용자 데이터가 포함되어 있습니다. 해커는 공개적으로 8비트코인(약 56,000달러, 약 380,000위안)을 판매하겠다고 제안했습니다. 현재 화주호텔 측은 공식적으로 이 사건을 경찰에 신고했다고 답변했습니다.

화주 호텔 그룹(NASDAQ: HTHT)은 이전에 한팅 호텔 그룹으로 알려졌으며, 중국 최초의 풀브랜드 호텔 체인 경영 그룹입니다.

2005년에 설립되었으며, 2010년 3월 미국 나스닥에 상장되었습니다. 현재 모든 수준의 시장을 포괄하여 3,000개 이상의 호텔을 운영하고 있습니다.

그중 고급 시장을 타깃으로 하는 호텔 브랜드로는 그랜드 메르큐어, 뷰, 조야 등이 있다. 중간 가격대 시장을 타겟으로 하는 호텔로는 Four Seasons, Orange Crystal, Orange Select, Ibis Styles 등이 있습니다. 대중시장에는 이비스, 한팅 프리미엄, 한팅, 하이 인 등이 있습니다.

이번에 다크웹에서 판매되는 데이터는 세 가지 부분으로 구성되어 있습니다.

화주 호텔 공식 홈페이지 등록정보는 다음과 같습니다.

이름, 휴대전화번호, 이메일 주소, 아이디번호, 로그인 비밀번호, 총 53GB, 약 1억 2천만명의 신원정보;

화주 호텔에 체크인할 때 투숙객의 신분 등록 정보는 다음과 같습니다.

이름, 주민등록번호, 집 주소, 생년월일, 내부 주민등록번호 등 총 22.3GB에 달하는 약 1억 3천만 명의 신원정보;

화주 호텔 객실 예약 기록 정보에는 다음이 포함됩니다.

내부 ID번호, 객실연관번호, 성명, 결제카드번호, 휴대폰번호, 체크인시간, 호텔 ID번호, 객실번호, 소비금액 등 총 66.2GB, 약 2억 4천만 건의 레코드가 포함되어 있습니다.

화주 측은 경찰에 신고했다고 밝혔지만, 다크웹 거래의 증거를 추적하고 수집하는 것은 매우 어렵고, 데이터는 이미 유출됐을 텐데, 어떤 시정 조치를 취할지는 알 수 없습니다.

데이터 해킹: 태양 아래의 회색 지대

사실, 이처럼 대규모로 국민 정보가 유출된 것은 처음이 아니다.

올해 7월 초, 중국에서 대규모 데이터 유출 사건이 드러났습니다. 무려 11개 기업이 연루되었고, 4,000GB에 달하는 수천억 건의 국민 정보가 압수됐습니다.

이 사건에 관련된 데이터는 매우 개인 정보입니다. 이 사건과 관련된 인터넷 URL 데이터에는 휴대전화 번호, 인터넷 기지국 코드 등 40개 이상의 정보 요소가 포함되어 있으며, 이는 휴대전화 이용자의 구체적인 인터넷 행동을 기록하고 있습니다. 일부 데이터는 국민 개인 계정의 홈페이지에 직접 입력될 수도 있습니다.

하지만 더욱 놀라운 점은 이러한 데이터를 구매하는 사람들이 우리가 생각하는 것처럼 사기 조직이나 온라인 금융 대출 기관 등만은 아니라는 것입니다. 구글과 화웨이를 포함한 많은 대형 국내외 인터넷 기업은 이 회사의 중요한 수익 고객으로, 이는 이들이 모두 국민의 다양한 개인 데이터에 접근할 수 있다는 것을 의미합니다.

전 세계 모든 AI 회사의 R&D 엔지니어에게 대량의 실제 데이터를 확보하는 것은 AI 모델을 개발하는 데 매우 유용합니다. 데이터의 순도가 높으면 더 좋을 것입니다.

그들은 더욱 편리하게 데이터를 처리하고, 더욱 효율적으로 모델을 비교하고 평가하여 실제 문제에 대한 올바른 해결책을 제시할 수 있습니다.

화주호텔 객실 예약 정보 유출 사건부터 시작해 GAN 암호화에 대해 이야기해 보겠습니다.

그러나 데이터 기밀성 문제로 인해 이 거대 기업들이 공유할 수 있는 데이터는 매우 제한적입니다. 따라서 대기업이 데이터를 구매하는 것은 실제로 업계에서 흔한 일입니다.

중국뿐만 아니라 전 세계 사용자들은 데이터의 개인정보 보호 및 기밀성에 대해 명확하게 이해하지 못하고 있습니다. 다양한 인터넷 상품을 이용할 때, 반드시 "이용약관"에서 "예"를 선택해야 합니다.

대기업이 데이터를 구매하면 그 다음은 어떻게 되나요?

대기업들은 데이터를 사기 위해 많은 돈을 썼으므로 당연히 이 데이터를 효율적으로 활용할 것입니다.

이들은 데이터를 구매하고, 자체 제품을 사용하여 데이터를 수집하며, 데이터를 보호하기 위해 보다 안전한 암호화 방법을 개발합니다.

약자는 항상 약하고 강자는 항상 강하다는 것은 사실입니다.

엔지니어로서, 흔히 사용되는 여러 가지 데이터 암호화 방법과 그 속성 및 원리를 이해하는 방법에 대해 알아보겠습니다.

익명화된 데이터에 대한 본질적으로 불충분한 보호 메커니즘

현재 일반적으로 사용되는 데이터 공유 기밀 유지 메커니즘은 데이터 세트를 익명화하여 달성되지만, 대부분의 경우 여전히 좋은 솔루션이 아닙니다.

데이터 익명화는 일부 민감한 데이터를 마스킹하여 어느 정도 기밀성을 유지할 수 있지만, 데이터 전문가가 추론을 하는 것을 막을 수는 없습니다. 실제 응용 프로그램에서는 관련 정보의 역추론을 통해 숨겨진 민감한 데이터를 추론할 수 있습니다.

이전에 독일의 한 연구원이 다음과 같은 제목의 논문을 발표했습니다. 나만의 NSA를 만들어 보세요연구 논문에서는 데이터 익명화를 되돌리고 원래 정보를 찾는 방법에 대해 설명합니다.

연구원은 가상 회사를 통해 약 300만 명의 독일인으로부터 한 달 치의 웹 클릭스트림 정보에 무료로 액세스할 수 있는 권한을 얻었습니다. 이 정보는 무작위 문자열 등을 사용하여 익명화됩니다. 「4vdp0qoi2kjaqgb」사용자의 실명을 대체합니다.

연구원은 사용자의 이전 검색 기록과 기타 관련 정보를 통해 웹사이트에서 사용자의 실명을 성공적으로 추론했습니다. 데이터 익명화로는 완전한 기밀성이 보장되지 않는다는 것을 알 수 있습니다.

카오스 커뮤니케이션 콩그레스는 유럽 최대의 해커 연합 조직인 독일 카오스 컴퓨터 클럽이 주최합니다. 주로 컴퓨터 및 네트워크 보안 문제를 연구하여 컴퓨터 및 네트워크 보안을 증진하는 것을 목표로 합니다.

이렇게 하여 동형암호가 탄생하게 되었다.

이는 암호학 분야의 획기적인 성과 중 하나입니다. 복호화기는 최종 결과만 알 수 있고 각 암호문의 구체적인 정보를 얻을 수 없습니다.

동형암호는 정보 보안을 효과적으로 강화할 수 있으며 앞으로 AI 분야의 핵심 기술이 될 수도 있지만, 현재로서는 적용 시나리오가 제한적입니다.

간단히 말해서, 동형 암호화는 내 데이터를 당신은 당신의 필요에 따라 사용할 수 있지만, 당신은 구체적으로 어떤 데이터인지 볼 수 없다는 것을 의미합니다.

이 암호화 방법은 효과적이기는 하지만, 계산 비용이 너무 높습니다.

기본적인 동형 암호화 기술은 1MB의 데이터를 16GB로 변환할 수 있는데, 이는 AI 시나리오에서 매우 비용이 많이 듭니다. 게다가, 준동형 암호화 기술은(대부분의 암호화 알고리즘과 마찬가지로) 일반적으로 미분 불가능하므로 확률적 경사 하강법(SGD)과 같은 주류 AI 알고리즘에는 적합하지 않습니다.

현재, 동형암호 기술은 기본적으로 개념적 수준에 머물러 있어 실제 적용에 어려움이 있지만, 미래에는 희망이 있습니다.

GAN 암호화 기술에 대해 자세히 알아보세요

Google은 2016년에 다음과 같은 논문을 발표했습니다. "적대적 신경망 암호화를 이용한 통신 보호 방법 학습"본 논문에서는 데이터 공유 과정에서 발생하는 데이터 보호 문제를 효과적으로 해결할 수 있는 GAN 기반 암호화 기술을 자세히 소개합니다.

이는 신경망을 기반으로 한 암호화 기술로, 일반적으로 XOR 연산을 수행하기 어렵기 때문에 암호화에 사용하기 어려운 것으로 간주됩니다.

하지만 신경망은 다른 신경망으로부터 데이터를 비밀로 유지하는 방법을 학습할 수 있습니다. 즉, 암호화나 복호화 알고리즘을 생성하지 않고도 모든 암호화 및 복호화 방법을 알아낼 수 있습니다.

GAN 암호화가 데이터를 보호하는 방법

GAN의 암호화 기술은 세 가지 측면을 포함하는데, 이를 앨리스, 밥, 이브의 사례를 통해 설명할 수 있습니다. 일반적으로 앨리스와 밥은 보안 통신의 두 종단이며, 이브는 두 사람의 통신을 모니터링하고 역으로 원래 데이터 정보를 찾으려고 노력합니다.

앨리스는 앨리스가 입력한 비밀 메시지 P를 밥에게 보낸다. 앨리스가 이 입력을 처리하면 출력 C가 생성됩니다("P"는 "평문"을 의미하고 "C"는 "암호문"을 의미함).

밥과 이브는 둘 다 C를 받고 C로부터 P를 복구하려고 시도합니다(이러한 계산을 각각 PBob과 PEve로 표시합니다).

밥은 이브보다 유리한 점이 있습니다. 그와 앨리스는 비밀 키 K를 공유합니다.

이브의 목표는 간단합니다. P를 정확하게 재구성하는 것입니다(즉, P와 PEve 사이의 오차를 최소화하는 것입니다).

앨리스와 밥은 명확하게 의사소통을 하고 싶어하지만(P와 P밥 사이의 오차를 최소화하기 위해), 동시에 이브에게는 의사소통 내용을 숨기고 싶어합니다.

GAN 기술을 통해 앨리스와 밥은 함께 훈련을 받고, 이브의 감시를 피하는 법을 배우면서 성공적으로 정보를 전송합니다. 전체 프로세스에는 사전 설정된 알고리즘이 사용되지 않습니다. GAN의 원리에 따르면, 앨리스와 밥은 고정된 이브가 아닌 최고의 이브를 이길 수 있도록 훈련됩니다.

아래 그림에서 볼 수 있듯이, 약 8,000개의 학습 단계를 거치면 Bob과 Eve는 둘 다 원래 메시지를 재구성할 수 있습니다. 약 10,000개의 학습 단계를 거치면서 Alice와 Bob 네트워크는 Eve를 발견하고 그녀에게 간섭하기 시작했으며, 이로 인해 Eve의 오류율이 증가했습니다. 즉, 밥은 이브의 행동으로부터 배우고 통신을 보호하여 공격을 피하면서 정확한 메시지 재구성을 달성할 수 있습니다.

AI 애플리케이션으로 돌아가면, GAN 암호화 기술은 높은 수준의 개인정보 보호를 유지하지 않고도 기업과 신경망 간에 정보를 교환하는 데 사용될 수 있습니다. 이는 AI 애플리케이션을 위한 실용적인 데이터 보호 솔루션입니다.

이 모델은 정보를 선택적으로 보호하는 방법을 학습하여 데이터 세트의 일부 요소는 암호화하지 않고, 이러한 민감한 데이터를 찾는 모든 형태의 추론을 차단함으로써 데이터 익명화의 단점을 효과적으로 우회할 수 있습니다.

Google 팀은 Alice와 Bob이 여전히 키를 공유하는 모델에 GAN 암호화 아키텍처를 적용했지만, 여기서 Alice는 A, B, C를 받고 암호문에서 D-public을 생성합니다.

밥과 이브는 둘 다 앨리스의 출력 D-public에 접근할 수 있습니다. 밥은 이를 사용하여 D에 대한 개선된 추정치를 생성하고, 이브는 이 근사치에서 C를 복구하기 위해 역추적 작업을 수행하게 합니다. 목표는 역방향 학습을 통해 C를 공개하지 않고도 D를 근사할 수 있으며, 이 근사치를 암호화된 정보와 키와 결합하여 Eve를 더 혼란스럽게 만들 수 있음을 보여주는 것입니다.

시스템이 정보를 올바르게 숨길 수 있는지 확인하기 위해 연구원들은 "블라인드 이브"라는 평가기를 만들었습니다. 이브는 C를 알지만, D-공개 키와 D-공개 키는 모릅니다. 이브는 C와 D-공개 키를 알고 있습니다.

이브의 재구성 오류가 블라인드 이브의 재구성 오류와 같다면, 이브가 유효한 정보를 성공적으로 추출하지 못했다는 것을 의미합니다. 몇 차례의 세션 이후, 이브는 더 이상 블라인드 이브에 비해 우위를 점하지 못했습니다. 이는 Eve가 C 값의 분포를 아는 것만으로는 C에 대한 정보를 재구성할 수 없음을 보여줍니다.

현재 GAN 암호화는 주류 AI 애플리케이션에서 비교적 새로운 기술입니다. 하지만 개념적으로 GAN 암호화 기술을 이용하면 기업은 데이터 과학자와 데이터 세트를 공유하면서도 그 안에 담긴 민감한 데이터를 공개하지 않을 수 있습니다.

장기적으로 사용자의 신뢰를 얻고 법적 위기를 줄이려면 암호화 기술은 부차적입니다. 가장 중요한 것은 인터넷 회사가 사용자의 개인 정보를 존중하고 합리적으로 사용하는 것입니다.

화주호텔 객실 예약 정보 유출 사건부터 시작해 GAN 암호화에 대해 이야기해 보겠습니다.

데이터 해킹: 태양 아래의 회색 지대

익명화된 데이터에 대한 본질적으로 불충분한 보호 메커니즘

GAN 암호화 기술에 대해 자세히 알아보세요