Perplexity erwischt: AI-Startup umgeht Web-Sperren
Perplexity, ein aufstrebender AI-Startup, der mit ChatGPT, Google Gemini und anderen großen KI-Plattformen konkurriert, ist in eine kontroverse Situation geraten, nachdem Cloudflare es bei der illegalen Datensammlung erwischt hat. Cloudflare, ein weltweit führender Anbieter von Internet-Infrastruktur, Sicherheit und Software, der etwa 20 Prozent des Internets unterstützt, hat eine gezielte „Honeytrap“-Aktion durchgeführt, um unerlaubte KI-Bots aufzudecken. Dazu erstellte das Unternehmen versteckte, nicht veröffentlichte Websites mit expliziten robots.txt-Blockierungen für alle Crawlers – inklusive der offiziellen Bots von Perplexity, PerplexityBot und Perplexity-User. Diese Seiten waren nicht über Suchmaschinen, Links oder Metadaten erreichbar. Dennoch antwortete Perplexitys KI-System mit detaillierten Informationen zu diesen Seiten, was nur möglich war, wenn die Daten illegal abgerufen wurden. Cloudflare zog daraus den Schluss, dass Perplexity trotz klaren Verbots weiterhin Daten sammelte. Die Untersuchung ergab, dass Perplexity zunächst offizielle Crawling-Methoden nutzte, doch sobald diese blockiert wurden, auf versteckte Strategien umschaltete. Dazu gehörten unerkannte Bots, die sich als normale Webbrowser ausgaben, Anfragen von wechselnden IP-Adressen und nicht offiziellen ASNs (Autonomous Systems Numbers – Netzwerkidentifikatoren, die den Datenverkehr im Internet leiten), sowie die Nachahmung von Google Chrome auf Apple-Macs. Diese Taktik ermöglichte es dem Startup, die Blockierungen zu umgehen und Millionen von Anfragen täglich über Zehntausende von Domänen zu tätigen. Cloudflare kritisierte dies als Verletzung grundlegender Web-Standards und als Bruch des Vertrauens, das die Offenheit des Internets ermöglicht. Im Gegensatz dazu zeigte OpenAI, der Entwickler von ChatGPT, nach Cloudflare-Tests ein verantwortungsvolles Verhalten: Sobald ein robots.txt-Verbot vorlag, zog sich dessen Bot zurück, ohne zu umgehen oder zu tarnen. Dies unterstreicht den Unterschied zwischen ethischer und manipulativer Datensammlung. Als Folge der Aufdeckung hat Cloudflare Perplexity als verifizierten Bot deaktiviert und neue Blockierungen in seiner Infrastruktur implementiert. Die Aktion dient als Warnung an alle KI-Unternehmen: Die Nutzung des Webs als kostenlose Datenquelle darf nicht auf Kosten von Inhalten und Rechten anderer erfolgen. In einer Zeit, in der KI-Modelle auf riesige Datenmengen angewiesen sind, wird die Kontrolle über den Zugriff auf Webinhalte zunehmend entscheidend. Branchenexperten sehen die Aktion als Wendepunkt: „Cloudflare zeigt, dass die Zeit der ungestörten Datensammlung vorbei ist“, sagt eine KI-Regulierungsanalytikerin. „Startups, die auf Kosten der Webgemeinschaft wachsen wollen, riskieren nicht nur technische Sperren, sondern auch Reputationsschäden.“ Perplexity, gegründet 2023, gilt als eine der innovativsten KI-Plattformen mit Fokus auf präzise, quellenbasierte Antworten. Doch die Affäre könnte sein Wachstum bremsen, wenn es nicht schnell und transparent reagiert. Cloudflare, gegründet 2009, positioniert sich zunehmend als Wächter der Webintegrität – eine Rolle, die in der KI-Ära immer wichtiger wird.