Microsoft、既知のデータセットを削除し、データプライバシーの霧を晴らす

数日前、マイクロソフトは有名人の写真の公開データセットを密かに削除しました。このデータ セットには 100,000 件の有名人の顔画像が含まれており、顔認識トレーニングとしてよく使用されます。 Microsoft による削除の本当の理由はわかりませんが、顔認識技術のセキュリティ規制を含め、その背後にあるデータ プライバシーの問題については熟考する価値があります。
Microsoftは先週、有名人の画像のデータセットを削除した。これはもともと世界最大の公開顔認識データ セットでしたが、現在は Microsoft チャネルを通じてアクセスできません。
この「サイレント」削除の背後にはどのような問題が関係しているのでしょうか?
Microsoft が解決したい問題: MS Celeb の有名人データセット
MS Celeb 1M データ セットは、2016 年に Microsoft によって初めてリリースされました。 100,000 人の有名人、約 1,000 万枚の顔画像、これらのデータはインターネットから収集されます。
インターネット上の 100 万人の有名人から人気度に基づいて 10 万人を選択し、検索エンジンを使用して各人物の約 100 枚の写真をポップアップ表示することで、この膨大なデータ セットを取得しました。

そして、このデータセットはもともとコンテストに提供するために使用されていました。 MSR IRC これは世界最高レベルの画像認識コンテストの 1 つであり、当初は MS Celeb 1M データセットがこのコンテストに使用されました。
MS Celeb 1M は顔認識トレーニングによく使用されます。しかし、これらの写真はすべてインターネットからのものであるため、疑問視されています。 Microsoftによると、それは以下に基づいているという。 「クリエイティブ・コモンズ・ライセンス CCライセンス」、これらの画像を取得して取得します。
契約によれば、写真は学術研究に再利用することができる(写真に写っている人物が必ずしも許可を与えるわけではないが、著作権所有者は許可する)。ただし、マイクロソフトがデータセットを公開した後は、その使用を管理することはできない。フィナンシャル・タイムズ紙による綿密な調査により、このデータが複数の企業テストで広範囲に使用されていたことが明らかになった。
IBM、パナソニック、アリババ、エヌビディア、日立などの企業はすべて、このデータセットを使用しています。
これには、データセットの使用におけるいくつかの規範的な問題が関係していると、ある研究者も指摘しました。人間の顔画像データセット内の倫理、出所、個人のプライバシーなどの問題を特定する。
削除理由: データセットの責任者が退職しましたか?
Microsoft は特別な説明もなく、MS Celeb 1M をオンラインから黙って削除しました。

フィナンシャル・タイムズの報道でマイクロソフトは次のように述べた。 「このウェブサイトは主に学術用途を目的としています。」そして、削除した理由は、「このプロジェクトの運営責任者である従業員が退職し、マイクロソフトと協力しなくなったため、削除されました。」
他の理由があるに違いなく、データセットのイメージに問題がある可能性もあると誰もが信じています。 Microsoft は、データセットは著名人の写真から得たものだと述べていますが。ただし、あまり知られていない人物もいくつか含まれています。これらの顔写真の所有者らは、マイクロソフトによる名前や画像情報の使用について疑問や批判を提起している。
一部の技術者は、Microsoft が EU 違反の罪を犯しているのではないかと推測しています。 一般データ保護規則 (GDPR)データ削除に関しては、データのセキュリティ保護措置を確立することを目的とした規制が昨年施行された。

しかし、マイクロソフトは、それらはGDPRの条件には関係しておらず、データセットに関連するWebサイトは「競争が終わった」という理由だけで廃止されたと述べた。
もちろん、今回マイクロソフトは MS Celeb データセットを削除しました。学術研究やその他の方法での通常の使用を妨げるものではありません。データベースの操作に使用されるツールにもアクセスできるようになりました。
一般的に使用される公開データセットにもプライバシーの問題がある可能性があります
フィナンシャル・タイムズ紙の調査を受けて、他の2つの学術機関も関連データセットを削除した。デューク大学の デューク MTMC モニタリング データセット、スタンフォード大学 洗脳データセット。
データセットとプライバシーの問題が人々の目に触れるのはこれが初めてではありません。今年1月末、IBMは100万レベルの不偏「顔の多様性」データセットを発表し、広い論争を引き起こした。
IBMはこの措置が顔認識における「バイアス」問題を軽減するためであると強調しているが、データセットの出所と人々の知識は多くの疑問を引き起こしている。
一部メディアは、IBMが撮影された人物の希望に応じてデータセット内の関連写真を削除すると述べたと報じたが、これは言葉だけで実際の行動はなかった。

データセットの収集と使用のルールは依然として非常に不明確な領域であり、特にインターネットの利便性の後で、多くの機関が顔認識やその他の目的で大量の写真を簡単に入手できるようになりました。
実際、データセットに関係するプライバシー問題の解決策は非常に簡単です。ユーザーの個人プライバシー情報に関しては、ユーザーの知る権利が保証されるべきであり、ユーザーがデータを提供する意思があるかどうかも保証されるべきです。。
しかし、欠けているように見えるのは決して方法ではなく、意識です。