HyperAIHyperAI

Command Palette

Search for a command to run...

ORCAS-I : Requêtes annotées selon l'intention à l'aide d'une supervision faible

Daria Alexander Wojciech Kusa Arjen P. de Vries

Résumé

La classification de l’intention de l’utilisateur est une tâche essentielle dans le domaine de la récupération d’information. Dans ce travail, nous proposons une taxonomie révisée de l’intention de l’utilisateur. Partant de la distinction largement adoptée entre requêtes navigatoires, transactionnelles et informatives, nous identifions trois sous-catégories distinctes pour les requêtes informatives : instrumentales, factuelles et abstentionnistes. Cette classification des requêtes utilisateur est plus fine, atteint un haut niveau de cohérence entre les annotateurs, et constitue une base solide pour un processus automatique de classification efficace. Les nouvelles catégories introduites permettent de mieux distinguer les types de requêtes qu’un système de récupération pourrait traiter, par exemple en priorisant différents types de résultats dans le classement. Nous avons appliqué une approche de supervision faible basée sur Snorkel pour annoter le jeu de données ORCAS selon notre nouvelle taxonomie d’intention utilisateur, en exploitant des heuristiques établies et des mots-clés pour construire des règles prédictives de catégorie d’intention. Ensuite, nous présentons une série d’expériences menées avec divers modèles d’apprentissage automatique, en utilisant les étiquettes issues de la phase de supervision faible comme données d’entraînement. Toutefois, nous constatons que les résultats obtenus par Snorkel ne sont pas surpassés par ces approches concurrentes, et peuvent être considérés comme de l’état de l’art. L’avantage d’une approche fondée sur des règles comme celle de Snorkel réside dans son déploiement efficace dans un système réel, où la classification d’intention serait exécutée pour chaque requête soumise. Le matériel mis à disposition avec cet article est le jeu de données ORCAS-I : une version étiquetée du jeu de données ORCAS basé sur les clics, composé de 18 millions de liens associés à 10 millions de requêtes distinctes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ORCAS-I : Requêtes annotées selon l'intention à l'aide d'une supervision faible | Articles | HyperAI