Wikimedia macht Wikipedia-Daten für KI zugänglicher
Wikimedia Deutschland hat einen neuen, künstlichen Intelligenz-freundlichen Zugang zu den Daten von Wikidata vorgestellt: das Wikidata Embedding Project. Ziel ist es, die fast 120 Millionen Einträge in Wikidata – den strukturierten Daten hinter Wikipedia und seinen Partnerprojekten – für große Sprachmodelle nutzbarer zu machen. Bisher war die Datenbank zwar maschinenlesbar, doch nur über Keyword-Suchen oder die spezialisierte Abfragesprache SPARQL zugänglich. Die neue Lösung wandelt die Daten in Vektoren um, also numerische Darstellungen, die semantische Beziehungen zwischen Begriffen erfassen. So werden Begriffe wie „Wissenschaftler“ nicht nur als Stichwort, sondern im Kontext mit konkreten Personen, Institutionen wie Bell Labs oder verwandten Begriffen wie „Forscher“ oder „Gelehrter“ erfasst – inklusive Übersetzungen und lizenzfreien Bildern. Die Technologie basiert auf einem vektorbasierten semantischen Suchsystem, das von der Firma Jina.AI entwickelt wurde und in Zusammenarbeit mit DataStax, einem Tochterunternehmen von IBM, in einer leistungsstarken Datenbank gespeichert wird. Die Vektoren ermöglichen es KI-Modellen, kontextbezogen zu suchen und zu verstehen, statt nur nach Stichworten zu suchen. Dies ist besonders wichtig für Retrieval-Augmented Generation (RAG) Systeme, die externe, verifizierte Wissensquellen nutzen, um genaue Antworten zu liefern. Die Daten sind öffentlich über Toolforge zugänglich und sollen durch ein Webinar am 9. Oktober 2024 für Entwickler weiter erschlossen werden. Die Initiative kommt zu einer Zeit, in der KI-Entwickler dringend hochwertige, verlässliche Datenquellen suchen. Während viele Modelle auf unstrukturierten, oft ungenauen Daten wie dem Common Crawl basieren, bietet Wikidata eine faktengestützte Alternative, die durch die Arbeit von ehrenamtlichen Editoren kontrolliert wird. Besonders in Bereichen mit geringer Online-Repräsentanz – etwa spezialisierte wissenschaftliche Themen oder regionale Informationen – könnte die neue Datenbank KI-Systeme präziser und vielfältiger machen. Ein zentrales Ziel des Projekts ist es, die Dominanz großer Tech-Unternehmen wie OpenAI oder Anthropic zu durchbrechen. Kleine Unternehmen und Entwickler ohne große Ressourcen können nun auf eine qualitativ hochwertige, frei zugängliche Datenbasis zugreifen, ohne selbst die komplexen Vektorisierungsprozesse durchführen zu müssen. „Mächtige KI muss nicht von wenigen Unternehmen kontrolliert werden – sie kann offen, gemeinsam und für alle entwickelt werden“, betont Philippe Saadé, Leiter des Wikidata AI-Projekts. Die Ankündigung erfolgt knapp einen Tag nach Elon Musks Ankündigung, eine Wikipedia-Konkurrenz namens Grokipedia zu bauen – als Reaktion auf seine Kritik an Wikipedia als „Wokipedia“, die er als zu globalistisch und progressiv empfindet. Diese Entwicklung unterstreicht die Bedeutung von transparenten, neutralen und kollektiv gepflegten Wissensquellen wie Wikidata, besonders in einer Ära, in der KI die Wahrnehmung von Fakten beeinflussen kann. Die Daten des Wikidata Embedding Project basieren auf etwa 30 Millionen Einträgen, die bis zum 18. September 2024 standen. Obwohl neuere Änderungen nicht enthalten sind, sind die Vektoren stabil genug, um auch kleine Aktualisierungen zu tolerieren. Die Plattform bleibt weiterhin frei zugänglich – nicht als Chatbot, sondern als fundierte Basis für künftige KI-Anwendungen.
