HyperAIHyperAI

Command Palette

Search for a command to run...

Atlantic veröffentlicht durchsuchbare KI-Trainingsdatenbank

Der US-amerikanische Nachrichtenanbieter The Atlantic hat kürzlich eine durchsuchbare öffentlich zugängliche Datenbank veröffentlicht, die Aufschluss über die riesigen Musikdatensätze gibt, die zur Entwicklung von KI-Modellen verwendet werden. Der Reporter Alex Reisner hat dabei vier relevante Datensätze identifiziert, die zusammen mehr als 22 Millionen Musiktitel umfassen. Zwei der Sammlungen erreichen Größenordnungen von zwölf bzw. neun Millionen Titeln, während zwei weitere jeweils über 100.000 Songs beinhalten. Laut Reisner wurden diese Datensätze bereits tausendfach heruntergeladen. Unternehmen wie Google und Stability AI haben in Forschungsarbeiten bestätigt, dass sie auf die bereitgestellten Daten zurückgegriffen haben. Die Quellen der Datensätze sind sehr unterschiedlich: Während einige, wie das Free Music Archive, für den privaten Gebrauch kostenlos nutzbar sind, erfordern kommerzielle Anwendungen normalerweise Lizenzen. Kritisch ist jedoch, wie diese Daten technisch verarbeitet werden. Drei der gefundenen Sammlungen basieren auf Listen mit Verweisen zu YouTube oder Spotify. KI-Entwickler nutzen automatisierte Tools, um die Audiodateien herunterzuladen. Diese Werkzeuge umgehen dabei oft Login-Mechanismen, Werbeeinblendungen und Abonnement-Systeme, was gegen die Nutzungsbedingungen der entsprechenden Plattformen verstößt und den kreativen Urheberinnen und Urhebern entgangene Einnahmen bedeutet. In den öffentlich einsehbaren Daten finden sich Tracks zahlreicher bekannter Künstler, darunter Lady Gaga, Fred Again.., Radiohead, Aphex Twin, Wu-Tang Clan und Bruce Springsteen. Die Veröffentlichung der Datenbank durch die KI-Wachstellsite von The Atlantic dient der Transparenz und ermöglicht Forschern, Journalisten sowie der Öffentlichkeit eine detaillierte Prüfung der Trainingsmaterialien, die moderne KI-Systeme durchlaufen. Der Fall unterstreicht die wachsende Debatte über Urheberrechte, Lizenzierung und ethische Standards im maschinellen Lernen, da große Technologiekonzerne weiterhin auf massenhaft verfügbare, aber rechtlich umstrittene Datenpools zurückgreifen. Die Initiative markiert einen Schritt hin zur Nachvollziehbarkeit der KI-Entwicklung, da bisherige Erkenntnisse über Trainingsdaten meist fragmentiert oder unternehmensintern blieben.

Verwandte Links