Microsoft는 데이터 세트를 영구적으로 제거한 최초 기업이 아니며 MIT도 마지막 기업이 아닙니다.

매사추세츠 공과대학은 최근 유명한 Tiny Images 데이터세트에 인종 차별과 여성 차별이 포함되어 있다는 의심이 제기되어 이를 영구적으로 삭제하라는 공지를 발표했습니다.
매사추세츠 공과대학교(MIT)는 최근 사과 성명을 발표했습니다.Tiny Images Dataset이 선반에서 영구적으로 제거될 것이라는 발표가 있었으며, 사회 전체가 이 데이터 세트를 공동으로 비활성화하고 삭제하기를 촉구했습니다. 이미 이 데이터 세트를 보유한 사용자는 다른 사람에게 이를 제공해서는 안 됩니다.
작년에 기업과 연구 기관에서 공개한 몇몇 잘 알려진 데이터 세트가 선반에서 제거되거나 영구적으로 금지되었습니다.Microsoft의 MS Celeb 1M 유명인 데이터 세트, 보행자 인식을 위한 Duke University의 Duke MTMC 감시 데이터 세트, 머리 감지를 위한 Stanford University의 Brainwash 데이터 세트.
이번에 선반에서 제거된 Tiny Images Dataset은 2006년 MIT에서 시작하여 공개한 것입니다. 이름에서 알 수 있듯이, 이것은 아주 작은 이미지 데이터셋입니다.
대부분 Google 이미지에서 수집한 32*32픽셀 컬러 이미지 7,930만 개가 포함되어 있습니다.

로드하려면 MATLAB 도구 상자와 인덱스 데이터 파일이 필요합니다.
전체 데이터 세트의 크기는 약 400GB입니다. 데이터 세트의 규모가 크기 때문에 컴퓨터 비전 연구 분야에서 가장 인기 있는 데이터 세트 중 하나입니다.
이 데이터 세트와 동시에 출판된 논문 "8천만 개의 작은 이미지: 비모수적 객체 및 장면 인식을 위한 대규모 데이터 세트"이 논문에 대한 검색 가능한 인용문의 수는 1,718개에 달합니다.
논문은 데이터 세트에 대한 대규모 자체 검토를 촉발합니다.
Tiny Images Dataset 이미지 데이터 세트는 최근 "대형 이미지 데이터 세트: 컴퓨터 비전의 피로스의 승리?"라는 제목의 논문이 발표되면서 화제가 되고 있습니다.
이 논문은 이러한 대규모 데이터 세트의 규정 준수에 대해 강력한 의문을 제기합니다.

논문 주소: https://arxiv.org/pdf/2006.16923.pdf
두 저자 중 한 명은 UnifyID의 수석 과학자인 비나이 프라부입니다. UnifyID는 고객에게 사용자 신원 확인 솔루션을 제공하는 실리콘 밸리의 인공지능 스타트업입니다.
또 다른 저자는 더블린 대학교에서 박사 학위를 준비하고 있는 아베바 비르하네입니다.
이 논문에서는 주로 ImageNet-ILSVRC-2012 데이터 세트를 예로 들어 설명합니다.저자는 데이터 세트에 소수의 비밀리에 촬영된 이미지(해변에서 다른 사람을 비밀리에 촬영하는 것, 심지어 사적인 부위까지 포함)가 포함되어 있음을 발견했습니다.느슨한 검토로 인해 이 사진들은 관련자들의 사생활을 심각하게 침해한 것으로 여겨진다.
한때 고전적인 데이터 세트였지만 이제는 정치적으로 올바르지 않습니다.
개인정보 침해 혐의를 받고 있는 ImageNet과 달리,논문에서 Tiny Images Dataset을 비난하는 이유는 해당 데이터세트에 인종차별적이고 여성혐오적인 라벨이 붙은 이미지가 수만 개나 있기 때문입니다.
또한, Tiny Images Dataset은 어떤 방식으로도 검토되지 않았기 때문에 차별과 개인정보 침해 문제가 더 심각하다고 지적했습니다.

이것은 약입니다 Tiny Images 데이터 세트는 WordNet 사양에 따라 레이블이 지정되어 있으며, 약 8,000만 개의 이미지를 75,000개의 카테고리로 분류합니다.
WordNet의 일부 태그 때문에 데이터 세트에 의문이 제기되었습니다.
WordNet이 원인이며 이미지 데이터 세트도 원인입니다.
우리 모두 알고 있듯이 WordNet은 프린스턴 대학 인지과학 연구실의 심리학자, 언어학자, 컴퓨터 엔지니어가 공동으로 설계했습니다. 1985년 출간 이래로 영어권에서 가장 표준화되고 포괄적인 영어 사전 시스템으로 자리매김했습니다.
표준화되고 포괄적인 수단: 인간 사회에 존재하는 영어 단어를 객관적으로 수집하여 이해시키고 연상시키는 것입니다.
Tiny Images Dataset에서는 WordNet의 53,464개 명사가 이미지 레이블로 사용됩니다.

인간의 사회적 존재에 대한 표현을 직접 인용하면 필연적으로 인종 차별과 성 차별을 포함한 몇몇 단어가 등장하게 되는 것도 이 때문입니다.
예를 들어, 명백히 모욕적이거나 비하적인 단어 비치, 창녀, 니*g어 등이 그림을 나타내는 적절한 라벨이 되었습니다. 또한, 다음과 같은 주관적인 용어도 있습니다. 성추행범 소아성애자 기다리다.
과학적 연구 이전에 사회적 영향을 측정해야 합니다.
저자는 많은 대규모 이미지 데이터 세트가 처음 구축될 때 사회적 영향을 신중하게 고려하지 않았으며, 개인의 권리에 위협과 피해를 줄 수 있다고 생각합니다.
이제 정보가 오픈 소스이기 때문에 누구나 오픈 API를 사용하여 쿼리를 실행하여 ImageNet이나 다른 데이터 세트에서 인간의 신원이나 초상을 정의하거나 판단할 수 있습니다. 이는 실제로 위험하며 관련 당사자들의 권리를 침해하는 것입니다. 저자는 또한 세 가지 해결책을 제시했습니다.
하나는 합성 현실과 데이터 세트의 정제입니다.예를 들어, 모델 학습 중에 실제 이미지 대신 합성 이미지를 사용(또는 향상)합니다.
둘째, 데이터 세트의 윤리적 필터링을 강화합니다.
세 번째는 정량적 데이터 세트 감사입니다.저자는 윤리적 위반의 범위를 평가하고 모델 주석 기반 방법의 실행 가능성을 측정하기 위해 ImageNet에 대한 교차 범주 정량적 분석을 수행했습니다.
데이터 세트 제거: 자의식이나 외부 압력으로 인해
MIT가 대중의 압력이나 자각으로 인해 자발적으로 데이터 세트를 삭제한 것은 처음이 아니다. 2019년 중반에 Microsoft는 유명한 MS Celeb 1M 데이터 세트를 제거하고 더 이상 사용되지 않을 것이라고 발표했습니다.
MS Celeb 1M 데이터 세트는 인터넷에서 100만 명의 유명인을 찾아 인기도에 따라 10만 명을 선택한 다음, 검색 엔진을 사용하여 각 사람의 사진을 약 100장씩 선택하여 얻습니다.

MS Celeb 1M은 얼굴 인식 훈련에 자주 사용됩니다. 이 데이터 세트는 세계에서 가장 높은 수준의 이미지 인식 대회 중 하나인 MSR IRC 대회에서 처음 사용되었습니다. IBM, 파나소닉, 알리바바, 엔비디아, 히타치 등의 회사도 이 데이터 세트를 사용합니다.
한 연구자는 이것이 얼굴 인식 이미지 데이터의 윤리, 출처, 개인 정보 보호와 같은 문제를 수반한다고 지적했습니다. 이 사진은 모두 인터넷에서 가져온 것이지만, 마이크로소프트는 "크리에이티브 커먼즈 라이선스 CC 계약"에 따라 이 사진을 촬영하고 얻었다고 밝혔습니다(사진 속 사람들이 반드시 라이선스를 승인한 것은 아니지만 저작권 소유자가 승인했습니다).
계약에 따르면, 사진은 학술 연구에 사용될 수 있지만, Microsoft에서 데이터 세트를 공개한 후에는 데이터 세트 사용을 효과적으로 감독할 수 없습니다.
MS Celeb 1M 데이터 세트 외에도 듀크 대학에서 공개한 보행자 인식을 위한 Duke MTMC 모니터링 데이터 세트와 스탠포드 대학에서 공개한 머리 감지를 위한 Brainwash 데이터 세트도 있습니다.
가능한 한 빨리 다른 데이터 세트를 다운로드하세요. 내일 제거될 수도 있습니다.
최근의 Black Lives Matter 인종 평등 운동은 유럽과 미국의 모든 계층에 공황을 불러일으켰으며, 컴퓨터 과학 및 엔지니어링 커뮤니티에서도 끊임없이 논의, 논쟁, 성찰이 이루어지고 있습니다.
초기에는 Github과 Go 언어로 대표되는 회사와 조직이 명명 표준을 수정하기 시작했습니다. 예를 들어, "블랙리스트"와 "화이트리스트"라는 용어는 피하고, 대신 중립적인 용어인 "차단리스트"와 "허용리스트"를 사용하거나 기본 브랜치 이름을 "마스터"에서 "트렁크"로 변경해야 합니다.
또 다른 딥러닝 선구자인 레쿤은 인종차별적이고 성차별적인 발언을 했다는 비난을 받고 자발적으로 트위터를 그만두었습니다.
이제 정치적 올바름은 대규모 데이터 세트를 대상으로 할 수 있습니다.
물론, 많은 수의 데이터 세트는 처음 설계될 때는 많은 단점과 불완전성이 있는 경우가 많습니다. 하지만 현재 상황에서는 관련 데이터 세트를 직접 제거하는 것이 편향을 해소하는 가장 좋은 방법이 아닙니다.
결국, 이러한 이미지는 이러한 데이터 세트에만 존재하는 것이 아니며, 이러한 편향은 WordNet의 몇몇 단어에만 존재하는 것이 아닙니다.
데이터 세트가 제거되었음에도 불구하고 이미지는 여전히 인터넷의 모든 곳에서 볼 수 있습니다. WordNet이 비활성화되었음에도 불구하고 이 단어들은 여전히 사람들의 마음속에 존재합니다. AI의 편견을 해결하려면 사회 문화에 오랫동안 존재해 온 편견에 주의를 기울여야 합니다.
-- 위에--