Command Palette
Search for a command to run...
Génération abstraite de fragments
Génération abstraite de fragments
Wei-Fan Chen Shahbaz Syed Benno Stein Matthias Hagen Martin Potthast
Résumé
Un extrait abstrait est un texte originalement rédigé afin de résumer une page web dans les résultats d’un moteur de recherche. Contrairement aux extraits traditionnels, dits « extraitifs », qui sont générés en extrayant mot à mot des phrases et des passages d’une page web, les extraits abstraits permettent de contourner les problèmes de droits d’auteur ; plus intéressant encore, ils ouvrent la voie à une personnalisation accrue. Des évaluations ont montré que les extraits abstraits sont tout aussi efficaces que les extraits extraitifs en termes d’acceptabilité par les utilisateurs et d’expressivité — mais la question centrale demeure : peut-on générer automatiquement des extraits abstraits de qualité suffisante ?Cet article présente une nouvelle approche pour la génération d’extraits abstraits : nous identifions les deux premières sources à grande échelle pour une supervision à distance, à savoir les contextes d’ancre (anchor contexts) et les répertoires web. En exploitant l’intégralité des corpus ClueWeb09 et ClueWeb12 pour extraire les contextes d’ancre, et en utilisant le projet DMOZ Open Directory, nous avons constitué le Webis Abstractive Snippet Corpus 2020, comprenant plus de 3,5 millions de triplets de la forme ⟨query, snippet, document⟩ servant d’exemples d’entraînement. Dans ce corpus, le snippet correspond soit à un contexte d’ancre, soit à une description issue d’un répertoire web, à la place d’un extrait abstrait véritablement biaisé par la requête pour le document web. Nous proposons un modèle bidirectionnel pour la génération abstraite d’extraits, et évaluons la qualité de notre corpus ainsi que celle des extraits abstraits générés à l’aide de mesures standard, de méthodes de collecte de données par le biais de plateformes de crowdsourcing, et en comparaison avec les approches de pointe. Les résultats montrent que nos nouvelles sources de données, combinées au modèle proposé, permettent de produire des extraits abstraits biaisés par la requête utilisables tout en minimisant la réutilisation de texte.