So baut man mit EDG und Neo4j eine intelligentere Empfehlungsmaschine auf
In diesem Tutorial wird gezeigt, wie man einen graphbasierten Empfehlungsmotor mithilfe von TopQuadrants EDG (Enterprise Data Graph) und Neo4j aufbaut. Zentrales Element ist eine STEM-Struktur als Taxonomie, die in EDG erstellt und verwaltet wird. Diese Taxonomie definiert hierarchische Beziehungen zwischen Themenkategorien, z. B. dass „Mathematische Software“ ein Untertyp von „Informatik“ ist. Anschließend werden fiktive wissenschaftliche Artikel, die mit spezifischen Kategorien markiert sind, in Neo4j importiert. Die Verknüpfung zwischen Artikeln und Kategorien erfolgt über die TAGGED_WITH-Beziehung, wobei die hierarchische Struktur automatisch inferiert wird. So wird ein Artikel, der mit „Mathematische Software“ markiert ist, auch indirekt als „Informatik“-Thema erkannt, ohne dass dies explizit gespeichert werden muss. Die Empfehlungsfunktion nutzt diese Beziehungen: Ein Artikel zu „Mathematischer Software“ wird mit anderen Artikeln empfohlen, die in derselben Oberkategorie (z. B. „Informatik“) liegen, auch wenn sie nicht mit derselben Unterkategorie markiert sind. Die Änderung der Taxonomie – z. B. die Verschiebung von „Mathematische Software“ in die Kategorie „Mathematik“ – hat sofortige Auswirkungen auf die Empfehlungen, da die logische Struktur im Hintergrund automatisch angepasst wird. Die Trennung von Taxonomie (in EDG) und Instanzdaten (in Neo4j) ermöglicht so eine flexible, skalierbare und konsistente Datenarchitektur, die sich dynamisch an veränderte Anforderungen anpassen lässt. Die Integration zwischen EDG und Neo4j erfolgt über eine spezielle Verbindung, die es erlaubt, die Taxonomie in Echtzeit in die Graphdatenbank zu übertragen. Die Verwendung von RDF/SHACL in EDG und Cypher in Neo4j kombiniert die Stärken beider Systeme: EDG für präzise, governance-gesteuerte Metadatenverwaltung, Neo4j für leistungsstarke graphbasierte Abfragen und Empfehlungen. Industrieexperten schätzen diese Architektur als besonders wertvoll für komplexe, mehrere Teams betreffende Anwendungen, insbesondere in Bereichen wie wissenschaftliche Daten, medizinische Klassifikationen oder Content-Management-Systeme, wo Konsistenz und Skalierbarkeit entscheidend sind. Die Trennung von Semantik und Daten reduziert die Wartungskosten und vermeidet die Notwendigkeit, hunderte von Dokumenten manuell umzutaggen, wenn sich die Klassifikation ändert. Dennoch weisen Experten auf Herausforderungen hin: Die Lernkurve ist steil, da zwei unterschiedliche Paradigmen (RDF/SHACL und property graphs) beherrscht werden müssen. Zudem entstehen mehr „Moving Parts“ – die Synchronisation zwischen Taxonomie und Datenbank muss kontinuierlich überwacht werden. Obwohl die zugrundeliegenden Standards (RDF, SPARQL) offene W3C-Standards sind, besteht ein gewisser Vendor-Lock-in, da EDG und Neo4j kommerzielle Produkte sind. Dennoch ist die Kombination von EDG und Neo4j ein leistungsfähiger Ansatz für semantische Anwendungen, der besonders in der KI- und Daten-Governance-Landschaft an Bedeutung gewinnt. TopQuadrant, der Hersteller von EDG, positioniert sich als Anbieter von Lösungen für wissensbasierte Datenarchitekturen, wobei Steve Hedden, der Autor, als Leiter Produktmanagement die strategische Ausrichtung auf semantische Technologien und KI-Integration vorantreibt.
