HyperAIHyperAI

Command Palette

Search for a command to run...

Génération abstraite de fragments

Wei-Fan Chen Shahbaz Syed Benno Stein Matthias Hagen Martin Potthast

Résumé

Un extrait abstrait est un texte originalement rédigé afin de résumer une page web dans les résultats d’un moteur de recherche. Contrairement aux extraits traditionnels, dits « extraitifs », qui sont générés en extrayant mot à mot des phrases et des passages d’une page web, les extraits abstraits permettent de contourner les problèmes de droits d’auteur ; plus intéressant encore, ils ouvrent la voie à une personnalisation accrue. Des évaluations ont montré que les extraits abstraits sont tout aussi efficaces que les extraits extraitifs en termes d’acceptabilité par les utilisateurs et d’expressivité — mais la question centrale demeure : peut-on générer automatiquement des extraits abstraits de qualité suffisante ?Cet article présente une nouvelle approche pour la génération d’extraits abstraits : nous identifions les deux premières sources à grande échelle pour une supervision à distance, à savoir les contextes d’ancre (anchor contexts) et les répertoires web. En exploitant l’intégralité des corpus ClueWeb09 et ClueWeb12 pour extraire les contextes d’ancre, et en utilisant le projet DMOZ Open Directory, nous avons constitué le Webis Abstractive Snippet Corpus 2020, comprenant plus de 3,5 millions de triplets de la forme \langlequery, snippet, document\rangle servant d’exemples d’entraînement. Dans ce corpus, le snippet correspond soit à un contexte d’ancre, soit à une description issue d’un répertoire web, à la place d’un extrait abstrait véritablement biaisé par la requête pour le document web. Nous proposons un modèle bidirectionnel pour la génération abstraite d’extraits, et évaluons la qualité de notre corpus ainsi que celle des extraits abstraits générés à l’aide de mesures standard, de méthodes de collecte de données par le biais de plateformes de crowdsourcing, et en comparaison avec les approches de pointe. Les résultats montrent que nos nouvelles sources de données, combinées au modèle proposé, permettent de produire des extraits abstraits biaisés par la requête utilisables tout en minimisant la réutilisation de texte.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp