HyperAI초신경

Microsoft는 잘 알려진 데이터 세트를 삭제하여 데이터 개인 정보 보호의 미스터리를 해소했습니다.

特色图像

며칠 전, Microsoft는 공개된 유명인 이미지 데이터 세트를 조용히 삭제했습니다. 이 데이터 세트에는 유명인 얼굴 이미지 10만 개가 포함되어 있으며 얼굴 인식 훈련에 자주 사용됩니다. Microsoft가 이 기능을 삭제한 진짜 이유는 알 수 없지만, 얼굴 인식 기술의 보안 기준을 포함하여 이 기능에 내재된 데이터 개인정보 보호 문제는 숙고해 볼 가치가 있습니다.

Microsoft는 지난주 유명인 이미지 데이터 세트를 삭제했습니다. 이는 한때 세계 최대 규모의 공공 얼굴 인식 데이터 세트였지만, 더 이상 Microsoft 채널을 통해 접근할 수 없습니다.

이 "조용한" 삭제의 이면에는 어떤 문제가 있는가요?

마이크로소프트가 해결하고자 하는 문제: MS Celeb 유명인 데이터 세트

MS Celeb 1M 데이터 세트는 2016년 Microsoft에서 처음 출시되었으며 다음을 포함합니다. 10만 명의 유명인, 약 1천만 개의 얼굴 이미지그리고 이러한 데이터는 인터넷에서 수집됩니다.

우리는 인터넷상의 100만 명의 유명인 중에서 인기도를 기준으로 10만 명의 유명인을 선택한 다음, 검색 엔진을 사용하여 각 사람의 사진을 100장 정도 추출하여 이 거대한 데이터 세트를 얻었습니다.

MS Celeb 데이터 세트의 Jobs 이미지, 여기서 녹색은 그의 젊은 시절 이미지이고 빨간색은 합성 이미지입니다.

이 데이터 세트는 원래 경쟁을 위해 사용되었습니다. MSR IRC  이 대회는 세계에서 가장 높은 수준의 이미지 인식 대회 중 하나이며, 원래 이 대회에는 MS Celeb 1M 데이터 세트가 사용되었습니다.

MS Celeb 1M은 얼굴 인식 훈련에 자주 사용됩니다. 하지만 이 사진들은 모두 인터넷에서 나온 것이어서 의문이 제기되고 있다. Microsoft는 이것이 기반이라고 말했습니다. 크리에이티브 커먼즈 라이선스 CC 계약, 이미지를 잡아서 가져오세요.

이 계약에 따라 사진은 학술 연구에 재사용될 수 있습니다(사진 속 사람들이 반드시 허가를 준 것은 아니지만 저작권자가 허가를 준 경우). 하지만 Microsoft에서 데이터 세트를 공개한 후에는 해당 데이터 세트의 사용을 통제할 수 없습니다. 파이낸셜 타임즈는 심층 조사를 실시한 결과, 여러 기업 테스트에서 데이터가 광범위하게 사용되고 있음을 발견했습니다.

IBM, 파나소닉, 알리바바, 엔비디아, 히타치 등의 회사에서 이 데이터 세트를 사용했습니다.

여기에는 데이터 세트 사용에 관한 몇 가지 규범적 문제가 포함됩니다. 한 연구원은 또한 이것이 다음을 포함한다고 지적했습니다.얼굴이미지 데이터세트 식별의 윤리, 출처 및 개인 정보 보호 문제.

삭제 이유: 이 데이터 세트를 담당한 직원이 퇴사했습니까?

마이크로소프트는 아무런 특별한 설명 없이 MS Celeb 1M을 온라인에서 조용히 삭제했습니다.

Github의 데이터셋 다운로드 페이지가 404로 바뀌었습니다. 

파이낸셜 타임즈의 보도에 따르면 마이크로소프트는 "이 웹사이트의 주요 목적은 학술적 목적입니다."삭제한 이유는 다음과 같습니다."해당 프로젝트를 운영하던 직원이 퇴사하여 더 이상 Microsoft에서 일하지 않으므로 해당 프로젝트는 삭제되었습니다."

우리 모두는 다른 이유가 있을 것이라고 믿습니다. 아마도 데이터 세트의 이미지에 문제가 있을 수도 있습니다. Microsoft는 모든 데이터 세트가 유명 인사의 사진에서 나왔다고 밝혔습니다. 하지만 여기에는 유명하지 않은 소수의 인물도 포함됩니다. 얼굴 사진의 소유자들은 Microsoft가 자신의 이름과 이미지 정보를 사용하는 것에 대해 의문을 제기하고 비판을 제기했습니다.

일부 기술 인력은 Microsoft가 EU 규정 위반 혐의로 기소될 수도 있다고 추측했습니다. 일반 데이터 보호 규정(GDPR)데이터 삭제에 관한 법률은 작년에 발효되었으며 데이터 보안 보호를 확립하는 것을 목표로 합니다.

GDPR은 개인 정보 보호 및 감독을 전례 없는 수준으로 끌어올렸습니다.

하지만 마이크로소프트는 GDPR 조항에 관여하지 않았으며, 데이터 세트 관련 웹사이트는 "경쟁이 끝났다"는 단순한 이유로 폐쇄되었다고 밝혔습니다.

물론, 이번에 Microsoft는 MS Celeb 데이터 세트를 제거했습니다.이는 학술 연구 및 기타 채널에서 정상적으로 사용하는 데 방해가 되지 않습니다.. 이제 데이터베이스 작업 도구에도 정상적으로 액세스할 수 있습니다.

일반적으로 사용되는 공개 데이터 세트에도 개인 정보 보호 문제가 있을 수 있습니다.

파이낸셜 타임즈의 조사 이후, 다른 두 학술 기관도 관련 데이터 세트를 삭제했습니다. 듀크 대학교 Duke MTMC 모니터링 데이터 세트, 그리고 스탠포드 대학교 세뇌 데이터 세트.

데이터 세트와 개인정보 보호 문제가 사람들의 관심을 끌게 된 것은 이번이 처음이 아닙니다. 올해 1월 말, IBM은 100만 개 수준의 편견 없는 "얼굴 다양성" 데이터 세트를 공개했는데, 이는 광범위한 논란을 불러일으켰습니다.

IBM은 이러한 움직임이 얼굴 인식의 '편견' 문제를 줄이기 위한 것이라고 강조했지만, 데이터 세트의 출처와 캐릭터의 인식 정도에 대해 많은 의문이 제기되었습니다.

일부 언론에서는 IBM이 피험자의 희망에 따라 데이터 세트에서 관련 사진을 삭제하겠다고 밝혔다고 보도하기도 했지만, 이는 일방적인 발언일 뿐 실제 조치는 취해지지 않았습니다.

올해 5월, 샌프란시스코는 정부 기관이 얼굴 인식 기술을 사용하는 것을 금지하는 조례를 발표했습니다.

데이터 세트를 수집하고 사용하는 규칙은 여전히 불분명한 분야이며, 특히 인터넷의 편리성 덕분에 많은 기관에서 얼굴 인식 등의 목적으로 대량의 이미지를 쉽게 얻을 수 있습니다.

사실, 데이터 세트와 관련된 개인정보 보호 문제에 대한 해결책은 매우 간단할 수 있습니다.사용자의 개인정보보호 정보와 관련하여, 사용자의 알 권리가 보장되어야 하며, 사용자가 데이터를 제공할 의향이 있는지 여부도 보장되어야 합니다..

하지만 부족한 것은 방법이 아니라 인식인 듯합니다.