HyperAIHyperAI
vor 16 Tagen

ORCAS-I: Anfragen mit Absichtsannotierung mittels schwacher Supervision

Daria Alexander, Wojciech Kusa, Arjen P. de Vries
ORCAS-I: Anfragen mit Absichtsannotierung mittels schwacher Supervision
Abstract

Die Klassifikation der Benutzerabsicht ist eine zentrale Aufgabe im Bereich der Informationsretrieval. In dieser Arbeit stellen wir eine überarbeitete Taxonomie der Benutzerabsicht vor. Ausgehend von der weit verbreiteten Unterscheidung zwischen navigativen, transaktionalen und informativen Anfragen identifizieren wir drei verschiedene Unterarten für informatorische Anfragen: instrumentelle, faktische und abstinente Anfragen. Die resultierende Klassifikation der Benutzeranfragen ist fein granularer, weist eine hohe Konsistenz zwischen den Annotationen auf und kann als Grundlage für einen effektiven automatischen Klassifizierungsprozess dienen. Die neu eingeführten Kategorien ermöglichen es, zwischen Anfragentypen zu unterscheiden, auf die ein Retrieval-System reagieren kann, beispielsweise durch die Priorisierung unterschiedlicher Ergebnistypen in der Rangfolge. Wir haben einen Ansatz mit schwacher Aufsicht basierend auf Snorkel verwendet, um den ORCAS-Datensatz gemäß unserer neuen Taxonomie der Benutzerabsicht zu annotieren, wobei etablierte Heuristiken und Stichwörter genutzt wurden, um Regeln zur Vorhersage der Absichtskategorie zu konstruieren. Anschließend präsentieren wir eine Reihe von Experimenten mit verschiedenen maschinellen Lernmodellen, wobei die Labels aus der Phase der schwachen Aufsicht als Trainingsdaten verwendet werden. Wir stellen jedoch fest, dass die Ergebnisse von Snorkel von diesen konkurrierenden Ansätzen nicht übertroffen werden und als Stand der Technik gelten können. Der Vorteil eines regelbasierten Ansatzes wie desjenigen von Snorkel liegt in seiner effizienten Implementierung in einem realen System, in dem die Absichtsklassifikation für jede abgegebene Anfrage durchgeführt wird. Die mit diesem Artikel veröffentlichte Ressource ist der ORCAS-I-Datensatz: eine annotierte Version des auf Klicks basierenden ORCAS-Datensatzes webbasierter Anfragen, der 18 Millionen Verbindungen zu 10 Millionen unterschiedlichen Anfragen bereitstellt.

ORCAS-I: Anfragen mit Absichtsannotierung mittels schwacher Supervision | Neueste Forschungsarbeiten | HyperAI