ORCAS-I : Requêtes annotées selon l'intention à l'aide d'une supervision faible

La classification de l’intention de l’utilisateur est une tâche essentielle dans le domaine de la récupération d’information. Dans ce travail, nous proposons une taxonomie révisée de l’intention de l’utilisateur. Partant de la distinction largement adoptée entre requêtes navigatoires, transactionnelles et informatives, nous identifions trois sous-catégories distinctes pour les requêtes informatives : instrumentales, factuelles et abstentionnistes. Cette classification des requêtes utilisateur est plus fine, atteint un haut niveau de cohérence entre les annotateurs, et constitue une base solide pour un processus automatique de classification efficace. Les nouvelles catégories introduites permettent de mieux distinguer les types de requêtes qu’un système de récupération pourrait traiter, par exemple en priorisant différents types de résultats dans le classement. Nous avons appliqué une approche de supervision faible basée sur Snorkel pour annoter le jeu de données ORCAS selon notre nouvelle taxonomie d’intention utilisateur, en exploitant des heuristiques établies et des mots-clés pour construire des règles prédictives de catégorie d’intention. Ensuite, nous présentons une série d’expériences menées avec divers modèles d’apprentissage automatique, en utilisant les étiquettes issues de la phase de supervision faible comme données d’entraînement. Toutefois, nous constatons que les résultats obtenus par Snorkel ne sont pas surpassés par ces approches concurrentes, et peuvent être considérés comme de l’état de l’art. L’avantage d’une approche fondée sur des règles comme celle de Snorkel réside dans son déploiement efficace dans un système réel, où la classification d’intention serait exécutée pour chaque requête soumise. Le matériel mis à disposition avec cet article est le jeu de données ORCAS-I : une version étiquetée du jeu de données ORCAS basé sur les clics, composé de 18 millions de liens associés à 10 millions de requêtes distinctes.