HyperAIHyperAI

Command Palette

Search for a command to run...

Reddit poursuit des startups pour exploitation non autorisée de ses données pour l'IA

Une plateforme comme Reddit interdit dans ses conditions d’utilisation l’envoi de robots pour extraire son contenu, notamment afin de l’utiliser comme données d’entraînement pour l’intelligence artificielle. Pour contourner cette interdiction, certaines entreprises ont adopté une stratégie subtile : au lieu de scraper directement les pages de Reddit, elles se tournent vers les résultats de recherche de Google, où le même contenu apparaît souvent. Cette méthode permet de contourner les protections techniques de Reddit tout en récupérant les mêmes informations. La question se pose alors : s’agit-il d’une innovation ingénieuse ou d’un vol ? Si Reddit échoue dans sa dernière tentative judiciaire, ces entreprises pourraient bien être considérées comme des « génies des affaires » du point de vue légal. Le 14 avril, Reddit a déposé une nouvelle poursuite devant un tribunal fédéral de New York, marquant une nouvelle étape dans la guerre juridique entre les plateformes établies et les entreprises spécialisées dans le scraping de données. Cette affaire fait suite à d’autres actions similaires, comme celle de LinkedIn contre ProAPIs, accusée d’avoir utilisé des bots pour extraire des données personnelles des utilisateurs, protégées derrière des murs de connexion. Reddit avait déjà poursuivi Anthropic, accusant l’entreprise d’IA d’avoir violé ses engagements en cesse de scraper après avoir affirmé s’être arrêtée, avant de revenir 100 000 fois. La nouvelle poursuite cible quatre entreprises : Perplexity AI, connue pour son moteur de recherche basé sur l’IA et sa réputation de méthodes agressives en matière de collecte de données ; SerpApi, basée au Texas ; Oxylabs, une société lituanienne ; et AWMProxy, située en Russie. Selon le plaidoyer de Reddit, ces trois dernières ont utilisé des systèmes de scraping indirects via les résultats de Google pour récupérer du contenu Reddit, qu’elles ont ensuite vendu à des géants comme OpenAI et Meta. Oxylabs a justifié sa position devant le New York Times en affirmant que « aucune entreprise ne devrait revendiquer la propriété de données publiques qui ne lui appartiennent pas ». Toutefois, la victoire juridique de Reddit n’est pas garantie. D’abord, le tribunal de New York n’a pas nécessairement compétence sur des entreprises étrangères. Ensuite, les précédents montrent que ces poursuites sont souvent malheureusement peu concluantes. Par exemple, la poursuite d’Elon Musk contre des scrapers sur X a été rejetée l’an dernier, le juge soulignant que le contrôle excessif sur les données risquait de créer des monopoles d’information, au détriment de l’intérêt public. Cette affaire soulève des enjeux fondamentaux : quelle est la propriété des données publiques sur Internet ? Peut-on légalement récupérer du contenu accessible via des moteurs de recherche, même si celui-ci provient d’un site protégé ? Les entreprises de scraping arguent de la liberté d’accès à l’information, tandis que les plateformes comme Reddit insistent sur leur droit à contrôler leur contenu et à en tirer une valeur économique. Le résultat de cette affaire pourrait avoir des répercussions profondes sur l’avenir de l’IA, du scraping et du droit numérique.

Liens associés

Reddit poursuit des startups pour exploitation non autorisée de ses données pour l'IA | Articles tendance | HyperAI