데이터세트 요약 | 딥페이크 혼란이 만연합니다. 마법을 사용해 마법을 물리치세요! 고품질 데이터 세트는 위조품 탐지 기술 발전에 도움이 됩니다.

인공지능 기술의 급속한 발전으로 얼굴 인식 기술은 보안, 지불, 소매 등 다양한 분야에 널리 활용되어 삶의 편리성과 안전성을 크게 향상시켰습니다. 그러나 기술이 점차 양날의 검이라는 특성을 가지게 되었고, 특히 개인정보 보호 측면에서 얼굴 인식 기술의 남용이 사회적 관심의 초점이 되었습니다.
CCTV 315 갈라에 따르면, 많은 유명 기업이 소비자 동의 없이 얼굴 정보를 불법적으로 수집하고 저장하고, 고유 ID를 생성한 뒤 이를 후속 사업 분석 및 정밀 마케팅에 사용했습니다. 이런 행위는 소비자의 개인정보보호권을 심각하게 침해하고 있으며, 사회적으로 광범위한 우려를 불러일으켰습니다.
동시에, AI 기반 딥페이크 기술인 딥페이크는 "실제와 구별할 수 없을 정도"로 사회 질서를 어지럽히고 대중의 이익을 침해합니다. DeepFake는 엄청난 양의 훈련 데이터를 사용하여 수많은 가짜 사진, 비디오, 오디오를 생성합니다. 얼굴 바꾸기 모드는 너무 정교해서 일반인이 미묘한 차이를 알아차리기 어렵습니다. 많은 범죄자들이 이 기술을 이용해 불법적인 이익을 얻습니다. 이 기술을 이용해 불법적인 이익을 취하는 한국 범죄자의 수는 22만 명에 달하는 것으로 알려졌습니다.
따라서 기술적인 측면에서, 얼굴 인식 및 위조 감지 기술을 지속적으로 업그레이드하여 이러한 변조된 딥페이크 영상과 이미지를 정확하게 판별하는 것은 시급히 해결해야 할 중요한 문제입니다. 이 글에서는 흔히 사용되는 얼굴 인식과 딥페이크 데이터 세트를 정리하고 요약하여 연구자들이 관련 분야의 연구를 어느 정도 더 효과적으로 수행하는 데 도움이 되기를 바랍니다.
더 많은 오픈 소스 데이터 세트를 보려면 클릭하세요.
딥페이크/얼굴 인식 데이터 세트
출판 플랫폼:캐글
출시 시간:2024
예상 크기:22.5GB
다운로드 주소:https://go.hyper.ai/B8dJf
딥페이크 감지 데이터 세트는 딥페이크 감지 작업을 위해 특별히 설계되었으며, 조작된 미디어를 식별하기 위한 딥 러닝 모델을 훈련하고 평가하는 데 사용할 수 있는 포괄적인 비디오 시퀀스 컬렉션을 제공합니다. 이는 얼굴 조작 감지를 위한 고품질 데이터 세트를 제공하는 데 특화된 공식 FaceForensics 서버에서 다운로드되었습니다.
출판사:모나쉬 대학교, 커틴 대학교, 인도 공과대학교 로파르
출시 시간:2022
예상 크기:23.11GB
다운로드 주소:https://go.hyper.ai/wTcYE
LAV-DF는 VoxCeleb2 데이터세트에서 파생된 다중 모드(비디오 변조 및 오디오 변조) 데이터세트로, 36,431개의 실제 비디오와 99,873개의 가짜 비디오를 포함하여 총 136,304개의 비디오를 포함하고 있습니다.
3.OpenForensics 얼굴 위조 탐지 데이터 세트
출판사:일본 국립정보연구소 소켄다이가쿠 대학, 일본; 도쿄대학교
출시 시간:2021
다운로드 주소:https://go.hyper.ai/64Gn2
OpenForensics 데이터 세트는 다각적인 위조 탐지 및 세분화 작업을 위해 설계된 대규모의 까다로운 데이터 세트입니다. 이 데이터 세트는 115,000개의 야생 이미지와 334,000개의 얼굴로 구성되어 있습니다. 모든 이미지에는 풍부한 얼굴 주석이 포함되어 있습니다. 이 기능은 다중 얼굴 위조 감지 및 분할 작업을 지원할 뿐만 아니라 일반적인 얼굴을 포함하는 기존 작업도 지원합니다. 이 기술은 딥페이크 방지 및 일반적인 인간 얼굴 감지 연구에 큰 잠재력을 가지고 있습니다.
출판사:SenseTime Research, 베이징 우정대학교, 상하이 인공지능 연구소, 베이징항대학교 소프트웨어 학원, 중국과학기술대학교, S-Lab, 난양이공대학교
출시 시간:2021
다운로드 주소:https://go.hyper.ai/h9fii
ForgeryNet 데이터 세트는 딥페이크 분석을 위해 특별히 구축된 대규모의 포괄적인 벤치마크입니다. 전 세계 7개 이미지 레벨과 8개 비디오 레벨의 위조 작업 방식을 포괄하는 290만 개의 이미지와 221,247개의 비디오를 포함하고 있으며, 이미지 위조 분류, 공간적 위조 위치 추정, 비디오 위조 분류, 시간적 위조 위치 추정의 4가지 이미지 및 비디오 레벨 작업을 지원합니다.
5.FFIW10K 얼굴 위조 데이터 세트
출판사:컴퓨터 비전 연구실, 취리히 연방 공과대학교, 인공지능 연구소, 베이항 대학교, 시드니 공과대학교
출시 시간:2021
다운로드 주소:https://go.hyper.ai/rstji
이 데이터 세트에는 유튜브에서 수집한 고품질 가짜 비디오 10,000개가 포함되어 있으며, 프레임당 평균 3개의 얼굴이 포함되어 있습니다. 각 영상에는 실제 얼굴과 가짜 얼굴이 포함되어 있어 실제 복잡한 장면에 더 가깝습니다. 조작 과정은 완전히 자동화되어 있으며 도메인 적대적 품질 평가 네트워크에 의해 제어되므로 데이터 세트의 확장성이 매우 뛰어나고 노동 비용이 저렴합니다.
출판 플랫폼:캐글
출시 시간:2024
예상 크기:113.93MB
다운로드 주소:https://go.hyper.ai/Ewakl
이 데이터 세트에는 약 9.6K개의 얼굴 이미지, 5K개의 실제 얼굴 이미지, 4.63K개의 AI 생성 얼굴 이미지가 포함되어 있습니다.
출판사:딥글린트
출시 시간:2021
예상 크기:161.46GB
다운로드 주소:https://go.hyper.ai/j0rrB
이 데이터 세트는 약 36만 개의 신원을 포함하여 약 1,700만 개의 얼굴 이미지로 구성되어 있습니다. 이는 지금까지 가장 크고 깔끔한 얼굴 인식 데이터 세트입니다. 대규모 얼굴 인식 모델을 훈련하고 평가하도록 설계되었으며, 특히 딥 러닝 기술과 결합하여 얼굴 인식 연구 및 개발에 널리 사용됩니다.
8. 에프aceForensics 얼굴 위조 탐지 데이터 세트
출판사:뮌헨 공과대학교(TUM)
출시 시간:2020
다운로드 주소:https://go.hyper.ai/ItO9I
이 데이터 세트에는 수많은 합성 및 실제 얼굴 연산이 포함되어 있습니다. 이 데이터는 YouTube 플랫폼의 다양한 동영상에서 수집되었으며, 선택된 여러 동영상 제작자의 데이터를 포함합니다. 이 데이터 세트를 사용하면 연구자들은 가짜 얼굴 이미지와 비디오를 감지하고 식별하는 더욱 정확하고 신뢰할 수 있는 방법을 개발할 수 있습니다.
출판사:아메리칸 대학교
출시 시간:2017
예상 크기:1.45GB
다운로드 주소:https://go.hyper.ai/8soAU
UTKFace 데이터 세트는 0세에서 116세까지의 긴 연령대를 포함하는 대규모 얼굴 데이터 세트로, 연령, 성별, 인종에 대한 주석이 달린 20,000개 이상의 얼굴 이미지를 포함합니다. 이미지 속 캐릭터는 포즈, 얼굴 표정, 조명, 폐쇄성, 해상도 등이 매우 다양하며, 얼굴 인식, 연령 추정, 연령 변화 예측, 랜드마크 위치 파악 등 다양한 작업에 활용할 수 있습니다.
출판사:홍콩 중국 대학교
출시 시간:2015
예상 크기:16.92GB
다운로드 주소:https://go.hyper.ai/l0j1L
CelebFaces(CelebA) 데이터 세트는 20만 개가 넘는 유명인 이미지로 구성된 대규모 얼굴 속성 데이터 세트로, 각 이미지에는 40가지 속성이 주석으로 달려 있으며 다양한 포즈와 배경을 포함합니다. CelebA의 주석에는 10,177개의 신원, 202,599개의 얼굴 이미지, 5개의 랜드마크 위치가 포함됩니다.
11.VGG-Face2 얼굴 인식 데이터 세트
출판사:옥스퍼드 대학교
출시 시간:2015
예상 크기:37.49GB
다운로드 주소:https://go.hyper.ai/XKI0Z
VGG-Face2 데이터셋은 총 9,131명의 얼굴 데이터를 포함하는 얼굴 이미지 데이터셋입니다. 모든 이미지는 Google 이미지 검색에서 가져온 것입니다. 데이터 세트에 있는 사람들은 자세, 나이, 인종, 직업이 매우 다양합니다.
위에 나열된 것은 HyperAI가 수집한 11개의 얼굴 인식 및 DeepFake 데이터 세트입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기고 내용을 제출해 알려주세요!
HyperAI 소개
HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.
* 1200개 이상의 공개 데이터 세트에 대한 국내 가속 다운로드 노드 제공
* 300개 이상의 고전적이고 인기 있는 온라인 튜토리얼이 포함되어 있습니다.
* 100개 이상의 AI4Science 논문 사례 해석
* 500개 이상의 관련 용어 검색 지원
* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅
학습 여정을 시작하려면 공식 웹사이트를 방문하세요.
마지막으로, 학문적 공유 활동을 추천해 드리겠습니다!
Meet AI4S의 세 번째 라이브 방송에는 상하이 교통대학교 자연과학연구소와 상하이 응용수학 국가센터의 박사후 연구원인 주쯔이가 초대되었습니다. 생방송을 시청하기 위한 예약을 하려면 여기를 클릭하세요!
