HyperAIHyperAI

Command Palette

Search for a command to run...

Wikimedia simplifie l'accès aux données pour l'IA

Wikimedia Deutschland a lancé le Wikidata Embedding Project, une initiative visant à rendre le savoir accumulé sur Wikipedia et ses plateformes sœurs plus accessible aux modèles d’intelligence artificielle. Ce projet, mené en collaboration avec Jina.AI et DataStax (filiale d’IBM), transforme environ 30 millions d’entrées de Wikidata — dont près de 120 millions de données au total — en vecteurs numériques, permettant aux modèles de langage comme les LLM d’interpréter le sens et les relations entre les concepts. Contrairement aux méthodes traditionnelles basées sur des recherches par mots-clés ou le langage SPARQL, cette approche sémantique en vecteurs permet une recherche contextuelle plus fine, essentielle pour les systèmes d’IA générative. Le projet vise à améliorer la qualité des réponses des modèles d’IA en leur fournissant des informations vérifiées par des éditeurs humains, contrairement aux grandes bases de données non filtrées comme Common Crawl. Il est particulièrement utile pour les systèmes de génération augmentée par récupération (RAG), qui puisent des informations externes pour produire des réponses plus précises. Par exemple, une requête sur « scientifique » renvoie non seulement des noms célèbres comme Marie Curie ou Richard Feynman, mais aussi des liens vers des chercheurs de Bell Labs, des traductions, des images libres de droits et des concepts apparentés comme « chercheur » ou « académicien ». L’objectif principal est de démocratiser l’accès aux données de haute qualité. Alors que les géants de la tech comme OpenAI ou Anthropic ont les moyens de vectoriser eux-mêmes les données de Wikidata, les petites entreprises et les développeurs indépendants en profitent davantage. « L’IA puissante n’a pas besoin d’être contrôlée par une poignée de sociétés », affirme Philippe Saadé, responsable du projet, soulignant que cette initiative repose sur l’ouverture et la collaboration. La base de données est désormais accessible publiquement via Toolforge, et un webinaire est prévu le 9 octobre pour guider les développeurs. Ce lancement intervient au moment où l’IA connaît une croissance exponentielle, et où la qualité des données d’entraînement devient cruciale. Des affaires comme celle d’Anthropic, qui a proposé un règlement de 1,5 milliard de dollars pour une affaire liée à l’utilisation non autorisée d’œuvres littéraires, montrent les enjeux juridiques et éthiques liés aux sources de données. En parallèle, Elon Musk a annoncé le développement de Grokipedia, une encyclopédie concurrente qu’il juge plus neutre, critiquant Wikipedia comme « Wokipedia » et trop orientée vers des visions progressistes. Cette initiative souligne l’urgence de proposer des alternatives fiables et ouvertes. Le projet ne modifie pas l’expérience utilisateur sur Wikipedia, mais renforce l’infrastructure derrière, permettant à des applications comme Govdirectory — qui répertorie les coordonnées des responsables publics — d’exploiter des données structurées et vérifiées. Bien que les données ne comprennent pas encore les mises à jour récentes, les équipes estiment que les petits ajustements ne perturbent pas significativement les vecteurs, qui représentent des idées générales. Ce projet marque une avancée majeure pour une IA plus transparente, équitable et fondée sur des connaissances vérifiées.

Liens associés

Wikimedia simplifie l'accès aux données pour l'IA | Articles tendance | HyperAI