HyperAIHyperAI
vor 17 Tagen

Domänenanpassung für Deep Entity Resolution: Eine Untersuchung des Gestaltungsraums

{Xiaoyong Du, Ruixue Fan, Guoliang Li, Chengliang Chai, Peng Wang, Nan Tang, Ju Fan, Jianhong Tu}
Abstract

Die Entitätsauflösung (Entity Resolution, ER) ist ein zentrales Problem der Datenintegration. Die derzeitigen Stand der Technik (SOTA)-Ergebnisse in der ER werden durch tiefes Lernen (Deep Learning, DL) basierte Methoden erreicht, die mit einer großen Menge an gelabelten Paaren entsprechender (übereinstimmender bzw. nicht übereinstimmender) Entitäten trainiert werden. Dies stellt möglicherweise kein Problem dar, wenn gut vorbereitete Benchmark-Datensätze verwendet werden. Für viele Anwendungen der ER in der Praxis ändert sich die Situation jedoch drastisch, da die Erhebung großer, gelabelter Datensätze eine erhebliche Herausforderung darstellt. In dieser Arbeit untersuchen wir die folgende Frage: Wenn wir über einen gut gelabelten Quell-ER-Datensatz verfügen, können wir dann ein DL-basiertes ER-Modell für einen Ziel-Datensatz trainieren, ohne jegliche Labels oder nur mit wenigen Labels? Dies wird als Domänenanpassung (Domain Adaptation, DA) bezeichnet, die in der Computer Vision und Natural Language Processing große Erfolge erzielt hat, jedoch systematisch noch nicht für die ER untersucht wurde. Unser Ziel ist es, die Vor- und Nachteile einer Vielzahl von DA-Methoden für die ER systematisch zu erforschen. Dazu entwickeln wir einen DADER-Framework (Domain Adaptation for Deep Entity Resolution), der die Anwendung von DA in der ER erheblich voranbringt. Wir definieren einen Gestaltungsspielraum für die drei Module des DADER-Frameworks: Feature-Extractor, Matcher und Feature-Aligner. Wir führen bislang die umfassendste experimentelle Studie durch, um diesen Gestaltungsspielraum zu erkunden und verschiedene DA-Ansätze für die ER miteinander zu vergleichen. Auf Basis umfangreicher Experimente liefern wir Anleitungen zur Auswahl geeigneter Gestaltungslösungen.