HyperAI

Microsoft Ist Nicht Der Erste Und MIT Nicht Der Letzte, Der Einen Datensatz Dauerhaft Entfernt

vor 5 Jahren
Große Fabrikangelegenheiten
Information
神经小兮
特色图像

Das Massachusetts Institute of Technology hat vor Kurzem eine Aufforderung zur dauerhaften Entfernung des berühmten Tiny Images Dataset herausgegeben, da darauf hingewiesen wurde, dass dieser mutmaßliche rassistische Diskriminierung und Diskriminierung von Frauen enthielt.

Das Massachusetts Institute of Technology (MIT) hat kürzlich eine Entschuldigungserklärung abgegeben.Es wurde angekündigt, dass der Tiny Images-Datensatz dauerhaft aus den Regalen entfernt wird, und die gesamte Gesellschaft ist aufgerufen, diesen Datensatz gemeinsam zu deaktivieren und zu löschen. Benutzer, die diesen Datensatz bereits besitzen, sollten ihn nicht an andere weitergeben.

Im vergangenen Jahr wurden mehrere bekannte Datensätze von Unternehmen und Forschungseinrichtungen aus den Regalen genommen oder dauerhaft verboten, darunterDer Promi-Datensatz MS Celeb 1M von Microsoft, der Überwachungsdatensatz Duke MTMC der Duke University zur Fußgängererkennung und der Brainwash-Datensatz der Stanford University zur Kopferkennung.

Der Tiny Images Dataset, der dieses Mal aus den Regalen genommen wurde, wurde 2006 vom MIT initiiert und veröffentlicht. Wie der Name schon sagt, handelt es sich dabei um einen winzigen Bilddatensatz.

Enthält 79,3 Millionen Farbbilder im Format 32 x 32 Pixel, die größtenteils aus Google Bilder stammen.

Der Datensatz ist groß und die Dateien, Metadaten und Deskriptoren werden in Binärdateien gespeichert
Erfordert MATLAB-Toolbox und Indexdatendatei zum Laden

Der gesamte Datensatz ist fast 400 GB groß. Aufgrund seiner enormen Größe ist der Datensatz auch einer der beliebtesten Datensätze im Bereich der Computer Vision-Forschung.

Gleichzeitig mit diesem Datensatz veröffentlichte Artikel „80 Millionen winzige Bilder: ein großer Datensatz für die nichtparametrische Objekt- und Szenenerkennung“beträgt die Anzahl der durchsuchbaren Zitate für dieses Dokument 1.718.

Ein Artikel löst eine groß angelegte Selbstuntersuchung von Datensätzen aus

Der Bilddatensatz „Tiny Images Dataset“ ist aufgrund eines kürzlich veröffentlichten Artikels mit dem Titel „Large Image Dataset: a pyrrhic win for Computer Vision?“ zu einem heißen Thema geworden.

Das Dokument wirft erhebliche Fragen zur Konformität dieser großen Datensätze auf.

Adresse des Artikels: https://arxiv.org/pdf/2006.16923.pdf

Es gibt zwei Autoren, einer davon ist Vinay Prabhu, Chefwissenschaftler bei UnifyID. UnifyID ist ein Startup für künstliche Intelligenz im Silicon Valley, das Kunden Lösungen zur Überprüfung der Benutzeridentität bietet.

Eine weitere Autorin ist Abeba Birhane, Doktorandin am University College Dublin.

Das Dokument verwendet hauptsächlich den ImageNet-ILSVRC-2012-Datensatz als Beispiel.Der Autor stellte fest, dass der Datensatz eine kleine Anzahl heimlich aufgenommener Bilder enthält (z. B. heimliches Fotografieren anderer am Strand, sogar mit privaten Körperteilen).Es wird angenommen, dass diese Bilder aufgrund der laxen Kontrolle eine schwerwiegende Verletzung der Privatsphäre der Beteiligten darstellen.

Einst ein klassischer Datensatz, heute politisch inkorrekt

Im Gegensatz zu ImageNet, das im Verdacht steht, die Privatsphäre zu verletzen,Der Grund für die Verurteilung des Tiny Images Dataset in dem Artikel liegt darin, dass der Datensatz Zehntausende von Bildern mit rassistischen und frauenfeindlichen Bezeichnungen enthält.

Es wurde auch darauf hingewiesen, dass die Probleme der Diskriminierung und der Verletzung der Privatsphäre schwerwiegender seien, da der Tiny Images Dataset in keiner Weise überprüft worden sei.

Teilauswahl des Datensatzes „Tiny Images“

Hier geht es um Der Tiny Images Dataset ist auf Grundlage der WordNet-Spezifikation beschriftet und klassifiziert fast 80 Millionen Bilder in 75.000 Kategorien.

Gerade aufgrund einiger Tags in WordNet wurde der Datensatz in Frage gestellt.

WordNet ist schuld, Bilddatensätze sind ebenfalls schuld 

Wie wir alle wissen, wurde WordNet gemeinsam von Psychologen, Linguisten und Computeringenieuren des Cognitive Science Laboratory der Princeton University entwickelt. Seit seiner Veröffentlichung im Jahr 1985 ist es das standardisierteste und umfassendste englische Wörterbuchsystem in der englischsprachigen Welt.

Standardisiert und umfassend bedeutet: Objektives Sammeln englischer Wörter, die in der menschlichen Gesellschaft vorkommen, und ihnen Verständnis und Assoziation verleihen.

Im Tiny Images Dataset werden 53.464 verschiedene Substantive aus WordNet als Bildbeschriftungen verwendet.

Statistiken zu sensiblen Wörtern im Zusammenhang mit Rasse und Geschlecht im Datensatz

Dies ist auch der Grund dafür, dass direkte Zitate aus Ausdrücken des menschlichen Soziallebens zwangsläufig zu Begriffen führen, die mit Rassendiskriminierung und Sexismus in Zusammenhang stehen.

Zum Beispiel Wörter, die klare Beleidigungen oder abwertende Bedeutungen ausdrücken Schlampe, Hure, Ni*Ger usw. sind zu relevanten Bezeichnungen für Bilder geworden. Darüber hinaus gibt es einige subjektive Begriffe, wie z. B. Kinderschänder Pädophiler Warten.

  Bevor wir wissenschaftlich forschen, müssen wir die sozialen Auswirkungen messen 

Der Autor ist der Ansicht, dass bei vielen groß angelegten Bilddatensätzen die gesellschaftliche Auswirkung bei ihrer Erstellung nicht sorgfältig geprüft wurde und dass sie eine Bedrohung und Beeinträchtigung der individuellen Rechte darstellen könnten.

Da die Informationen jetzt Open Source sind, kann jeder mithilfe einer offenen API eine Abfrage ausführen, um die Identität oder das Porträt von Menschen in ImageNet oder anderen Datensätzen zu definieren oder zu beurteilen. Dies ist in der Tat gefährlich und ein Eingriff in die Rechte der Beteiligten. Der Autor gab auch drei Lösungen an:
Eine davon ist die synthetische Realität und die Destillation von Datensätzen.Beispielsweise die Verwendung (oder Verbesserung) synthetischer Bilder anstelle realer Bilder während des Modelltrainings;
Zweitens: Stärkung der ethischen Filterung von Datensätzen;
Der dritte ist die quantitative Datensatzprüfung.Die Autoren führten eine kategorienübergreifende quantitative Analyse von ImageNet durch, um das Ausmaß ethischer Verstöße zu bewerten und die Durchführbarkeit auf Modellannotationen basierender Methoden zu messen.

Datensatzentfernung: entweder aus Selbstbewusstsein oder aufgrund von äußerem Druck

Das MIT ist nicht das erste Institut, das aufgrund öffentlichen Drucks oder aus Selbsterkenntnis freiwillig einen Datensatz entfernt. Bereits Mitte 2019 entfernte Microsoft den berühmten Datensatz MS Celeb 1M und kündigte an, dass dieser nicht mehr verwendet werde.

Der Datensatz MS Celeb 1M wird erstellt, indem man im Internet nach einer Million Prominenten sucht, 100.000 anhand ihrer Popularität auswählt und dann mithilfe einer Suchmaschine ungefähr 100 Bilder von jeder Person auswählt.

MS Celeb 1M-Datensatz

MS Celeb 1M wird häufig für das Training der Gesichtserkennung verwendet. Der Datensatz wurde erstmals im MSR IRC-Wettbewerb verwendet, einem der weltweit anspruchsvollsten Wettbewerbe zur Bilderkennung. Auch Unternehmen wie IBM, Panasonic, Alibaba, Nvidia und Hitachi verwenden diesen Datensatz.

Ein Forscher wies darauf hin, dass es dabei um Fragen wie Ethik, Herkunft und Datenschutz von Bilddatensätzen zur Gesichtserkennung gehe. Denn diese Bilder stammen alle aus dem Internet, obwohl Microsoft erklärt hat, diese Bilder auf Grundlage der „Creative Commons License CC Agreement“ aufgenommen und erhalten zu haben (die Personen auf den Fotos autorisieren die Lizenz nicht unbedingt, der Urheberrechtsinhaber jedoch schon).

Gemäß der Vereinbarung dürfen die Fotos für die akademische Forschung verwendet werden, doch nachdem Microsoft den Datensatz freigegeben hat, kann das Unternehmen die Verwendung des Datensatzes nicht mehr wirksam überwachen.

Zusätzlich zum MS Celeb 1M-Datensatz gibt es auch den von der Duke University veröffentlichten Duke MTMC-Überwachungsdatensatz zur Fußgängererkennung und den von der Stanford University veröffentlichten Brainwash-Datensatz zur Kopferkennung.

Laden Sie andere Datensätze so schnell wie möglich herunter, möglicherweise werden sie morgen entfernt

Die jüngste „Black Lives Matter“-Bewegung für Rassengleichheit hat in Europa und den USA in allen Gesellschaftsschichten Panik ausgelöst, und auch in der Informatik- und Ingenieursgemeinschaft herrscht ständiger Streit und Nachdenken.

Zunächst begannen Unternehmen und Organisationen, die durch Github und die Sprache Go vertreten sind, die Namensstandards zu ändern. Beispielsweise sollten die Begriffe „Blacklist“ und „Whitelist“ vermieden und stattdessen die neutralen Begriffe „Blocklist“ und „Allowlist“ verwendet werden, oder der Standard-Branch-Name sollte von „Master“ in „Trunk“ geändert werden.

Ein weiterer Pionier des Deep Learning, Lecun, wurde beschuldigt, rassistische und sexistische Bemerkungen gemacht zu haben und verließ Twitter freiwillig.

Heutzutage kann sich die politische Korrektheit auf große Datensätze richten.

Zugegebenermaßen weisen viele Datensätze bei ihrer Erstellung zahlreiche Mängel und Unvollkommenheiten auf. Unter den gegenwärtigen Bedingungen ist das direkte Entfernen relevanter Datensätze jedoch nicht der beste Weg, um Verzerrungen zu begegnen.

Schließlich existieren diese Bilder nicht nur in diesen Datensätzen, und diese Verzerrungen sind nicht nur ein paar Wörter in WordNet.

Obwohl der Datensatz entfernt wurde, sind die Bilder immer noch in jeder Ecke des Internets verfügbar. Obwohl WordNet deaktiviert wurde, sind diese Wörter immer noch in den Köpfen der Menschen präsent. Wenn wir die Voreingenommenheit in der KI beseitigen wollen, müssen wir die seit langem bestehende Voreingenommenheit in der sozialen Kultur berücksichtigen.

Lecun: Nur noch ein paar Tweets und ich bin fertig (breitet die Hände aus)

-- über--