マサチューセッツ工科大学は最近、人種差別と女性蔑視の疑いを理由に、有名な Tiny Images データセットを永久に削除するよう通知を出しました。
マサチューセッツ工科大学(MIT)は最近、次のような謝罪声明を発表した。Tiny Images データセットを棚から永久に削除すると発表し、このデータセットを既に所有しているユーザーは他のユーザーに提供しないよう社会全体に共同で無効化および削除するよう呼びかけました。
過去 1 年間で、企業や科学研究機関がリリースしたいくつかの有名なデータセットが棚から削除されたり、永久に禁止されたりしました。Microsoft の MS Celeb 1M 有名人データセット、デューク大学の歩行者認識用 Duke MTMC 監視データセット、スタンフォード大学の頭部検出 Brainwash データセット。
今回削除されたTiny Images Datasetは2006年にMITによって開始され、公開されました。名前が示すように、これは小さな画像データセットです。
基本的に Google 画像から収集された 7,930 万枚の 32 * 32 ピクセルのカラー画像が含まれています。
データ セット全体のサイズは 400 GB 近くあり、このデータ セットはコンピュータ ビジョン研究の分野で最も人気のあるデータ セットの 1 つとなっています。
このデータセットと同時に出版された論文 「8,000 万の小さな画像: ノンパラメトリックなオブジェクトとシーンの認識のための大規模なデータセット」、この論文の問い合わせ可能な引用数も 1718 回に達します。
Tiny Images Dataset を最前線に押し上げたのは、最近出版された「Large Image Dataset: a pyrrhic win for Computer Vision?」というタイトルの論文でした。
この論文は、これらの大規模なデータセットのコンプライアンスに関して強い疑問を提起しています。
論文アドレス: https://arxiv.org/pdf/2006.16923.pdf
著者は 2 人で、1 人は UnifyID の主任科学者である Vinay Prabhu です。 UnifyID はシリコンバレーの人工知能スタートアップ企業で、顧客にユーザー ID 検証ソリューションを提供しています。
もう一人の著者は、UCD の博士課程候補者、Abeba Birhane です。
この文書では主に ImageNet-ILSVRC-2012 データ セットを例として取り上げます。著者は、データ セットに少数の率直な写真 (プライベートな部分を含む、ビーチにいる他人の率直な写真など) が含まれていることを発見しました。審査が甘かったため、これらの写真は関係者のプライバシーを著しく侵害したと考えられている。
ImageNet のプライバシー侵害疑惑とは異なり、論文がTiny Images Datasetを非難する理由は、データセット内に人種差別や女性蔑視のラベルが付いた画像が数万枚も存在するためである。
同氏はまた、Tiny Images Datasetがレビューされていないため、差別やプライバシー侵害の問題がより深刻であると指摘した。
それがそれです Tiny Images データセットは WordNet 仕様に基づいてタグ付けされており、約 8,000 万の画像を 75,000 のカテゴリに分類しています。
WordNet のいくつかのタグが原因で、データ セットが疑問視されています。
WordNetのせいで画像データセットも一緒に記憶される
周知のとおり、WordNet はプリンストン大学の認知科学研究所の心理学者、言語学者、コンピューター エンジニアによって共同設計され、1985 年のリリース以来、英語世界で最も標準化された包括的な英語辞書システムとなっています。
標準化と網羅性とは、人間社会に存在する英語語彙を客観的に収集し、理解性と関連性を与えることを意味します。
Tiny Images データセットでは、WordNet の 53,464 個の異なる名詞が画像ラベルとして使用されます。
このため、人間の社会的存在の表現を直接引用すると、必然的に人種差別や性差別を伴う言葉が登場します。
たとえば、明らかに侮辱的または軽蔑的な言葉 ビッチ、ウィッレ、ニ○gえーっと 等の画像の該当ラベルとなっております。また、 等の主観的判断によるタイトルもございます。 痴漢、小児性愛者 待って。
科学研究の前に社会的影響を測定する必要がある
著者は、大規模な画像データセット(その多くは当初、社会的影響を慎重に測定せずに構築されたもの)が個人の権利に対する脅威や危害をもたらすと考えています。
現在のオープンな情報ソースにより、誰でもオープン API を使用してクエリを実行し、ImageNet またはその他のデータ セット内の人間の身元や肖像画を定義または判断できます。これは実際に危険であり、関係者にとって侵害です。著者は次の 3 つの解決策も示しました。
1 つは合成現実とデータセットの蒸留です。たとえば、モデルのトレーニング中に実際の画像の代わりに合成画像を使用 (または強化) します。
2 つ目は、倫理に基づいたデータセットのフィルタリングを強化することです。
3 つ目は定量的なデータセットの監査です。著者は、倫理違反の程度を評価し、モデルの注釈ベースの手法の実現可能性を測定するために、ImageNet のカテゴリ横断的な定量分析を実施しました。
世論や自意識からの圧力により、データセットを自発的に削除した最初の企業は MIT ではない。 2019 年半ばには、マイクロソフトは有名な MS Celeb 1M データ セットを削除し、今後は使用しないと発表しました。
MS Celeb 1M データセットは、インターネット上で 100 万人の有名人を検索し、その人気度に応じて 10 万人を選択し、検索エンジンを使用して各人物につき約 100 枚の写真を選択して得られたデータセットです。
MS Celeb 1M は顔認識トレーニングによく使用され、MSR IRC コンテストで使用されました。このコンテストは、IBM、パナソニック、アリババ、エヌビディア、日立などの企業が参加する世界最高レベルの画像認識コンテストの 1 つでもあります。このデータセットも使用されます。
ある研究者は、これには顔認識画像データセットの倫理、出所、個人のプライバシーなどの問題が含まれると指摘した。これらの写真はすべてインターネットからのものであるため、Microsoft は、これらの画像は「クリエイティブ コモンズ ライセンス CC 契約」に基づいてキャプチャおよび取得されたと述べています (写真に写っている人物は必ずしも許可を得ているわけではありませんが、著作権所有者が許可しています)。
契約によれば、写真は学術研究に使用できるとされているが、マイクロソフトはデータセットを公開した後、データセットの使用を効果的に監督することができなかった。
MS Celeb 1M データ セットに加えて、歩行者認識用にデューク大学がリリースした Duke MTMC 監視データ セットや、スタンフォード大学がリリースした頭部検出用の Brainwash データ セットもあります。
最近の「Black Lives Matter」の人種平等運動は、ヨーロッパと米国のあらゆる階層にパニックを引き起こしており、コンピューターサイエンスやエンジニアリングの分野でも議論、論争、反省が絶えません。
当初、Github や Go 言語に代表される企業や組織は、名前付け規則を変更し始めました。たとえば、「ブラックリスト」と「ホワイトリスト」という言葉は避け、中立的な言葉「ブロックリスト」と「許可リスト」を使用する必要がありました。デフォルトのブランチ名を「master」から「trunk」に変更します。
もう一人のディープラーニングのパイオニアであるレクン氏は、人種差別的で性差別的な発言をしたとして非難され、自主的にツイッターを辞めた。
現在、ポリティカル・コレクトネスは大規模なデータセットをターゲットにしている可能性があります。
大規模なデータセットの初期設計には、考慮されていない不完全な部分が数多くあることは事実です。ただし、現在の状況では、関連するデータセットを直接削除することは、バイアスを解決する最良の方法ではありません。
結局のところ、これらの画像はこれらのデータ セットにのみ存在するわけではありません。また、これらのバイアスは WordNet 内の単なる数語ではありません。
データセットは棚から削除されましたが、写真は依然としてインターネットの隅々にあり、WordNet は無効化されましたが、これらの言葉は依然として人々の心の中にあります。 AI の偏見を解決したいのであれば、社会文化における長年の偏見に依然として注意を払う必要があります。
- 以上 -