HyperAIHyperAI

Command Palette

Search for a command to run...

Reddit suedet Startups wegen illegaler Datensammlung für KI-Training

Ein Unternehmen möchte Inhalte von einer Website als Trainingsdaten für Künstliche Intelligenz nutzen und verkauft. Da die Website dies in ihren Allgemeinen Geschäftsbedingungen als Verstoß gegen die Nutzungsbedingungen definiert, sucht das Unternehmen einen Umweg: Statt direkt auf die Zielwebsite zuzugreifen, sammelt es Daten über Google-Suchergebnisse, die denselben Inhalt enthalten. Ist das nun ein genialer Geschäftsgriff oder ein Diebstahl? Wenn Reddit bei seiner neuesten rechtlichen Auseinandersetzung gegen Datenkratzer nicht erfolgreich ist, könnte genau diese Strategie tatsächlich als rechtlich zulässig gelten – zumindest vorläufig. Reddit hat am Mittwoch in New York eine neue Klage eingereicht, die Teil eines fortlaufenden Rechtsstreits zwischen etablierten Online-Plattformen und immer raffinierteren Unternehmen ist, die Daten mittels Roboterprogrammen sammeln. Vor Kurzem hatte auch LinkedIn gegen das Unternehmen ProAPIs geklagt, weil es automatisierte Konten nutzte, um persönliche Nutzerdaten zu extrahieren – Daten, die LinkedIn hinter seiner Login-Schranke schützt. Reddit wirft auch dem KI-Unternehmen Anthropic vor, sich verpflichtet zu haben, keine Daten mehr von Reddit zu sammeln, danach aber dennoch 100.000 Mal auf die Plattform zugegriffen zu haben. Die aktuelle Klage richtet sich gegen vier Unternehmen. Bekanntestes Ziel ist Perplexity AI, ein Unternehmen, das einen KI-basierten Suchmaschinen-Service anbietet und bereits für seine offene Haltung gegenüber Datenkratzerei bekannt ist. Die anderen drei – SerpApi aus Texas, Oxylabs aus Litauen und AWMProxy aus Russland – sollen nach Angaben der Klage eine subtilere Methode angewandt haben: Sie haben keine direkten Bots auf Reddit geschickt, sondern Daten aus Google-Suchergebnissen gesammelt, die auf Reddit-Inhalte verweisen. Diese Daten wurden dann an Tech-Riesen wie OpenAI und Meta verkauft. Ein Sprecher von Oxylabs, Denas Grybauskas, rechtfertigte die Vorgehensweise mit dem Argument, dass kein Unternehmen das Recht haben sollte, öffentliche Daten zu monopolisieren, die nicht ihnen gehören. Doch die rechtliche Lage ist komplex. Reddit hat die Klage in New York eingereicht, während die beklagten Unternehmen hauptsächlich in anderen Ländern ansässig sind, was die Durchsetzung von Urteilen erschwert. Zudem gibt es Hinweise darauf, dass solche Klagen nicht immer erfolgreich sind. So wurde vor einem Jahr eine ähnliche Klage von Elon Musks Plattform X abgewiesen. Der Richter bemerkte damals, dass der Umfang der Kontrolle, den X über Daten beanspruchte, das Risiko einer Informationsmonopolisierung birgt, was dem öffentlichen Interesse widersprechen könnte. Die Rechtslage bleibt unklar. Während Plattformen wie Reddit argumentieren, dass sie ihre Inhalte schützen und ihre Nutzerrechte wahren müssen, sehen Datenkratzer darin eine legitime Nutzung öffentlich zugänglicher Informationen. Die Entscheidung in diesem Fall könnte weitreichende Auswirkungen auf die Zukunft von KI-Entwicklung und Datenzugriff haben. Bis dahin bleibt die Frage offen: Ist es genial, wenn man die Lücke in den Nutzungsbedingungen ausnutzt, oder ist es einfach nur Diebstahl, nur mit einer anderen Maske?

Verwandte Links