HyperAIHyperAI
il y a 17 jours

Natural Questions : une base de benchmark pour la recherche en réponse à des questions

{Jakob Uszkoreit, Andrew M. Dai, Ming-Wei Chang, Chris Alberti, Tom Kwiatkowski, Slav Petrov, Michael Collins, Matthew Kelcey, Llion Jones, Jennimaria Palomaki, Illia Polosukhin, Olivia Redfield, Kenton Lee, Quoc Le, Jacob Devlin, Ankur Parikh, Kristina Toutanova, Danielle Epstein}
Résumé

Nous présentons le corpus Natural Questions, un ensemble de données pour la réponse aux questions. Les questions proviennent de requêtes réelles, anonymisées et agrégées issues du moteur de recherche Google. Un annotateur reçoit une question accompagnée d'une page Wikipedia provenant des cinq premiers résultats de recherche, puis annoté une réponse longue (généralement un paragraphe) et une réponse courte (une ou plusieurs entités), si celles-ci sont présentes sur la page, ou indique « null » si aucune réponse longue ou courte n’est disponible. La version publique comprend 307 373 exemples d'entraînement avec une seule annotation, 7 830 exemples annotés de manière 5-fois pour les données de développement, ainsi que 7 842 exemples supplémentaires annotés de manière 5-fois et conservés en tant que données de test. Nous présentons des expériences validant la qualité des données. Nous décrivons également une analyse portant sur des annotations 25-fois réalisées sur 302 exemples, offrant des éclairages sur la variabilité humaine dans cette tâche d'annotation. Nous introduisons des métriques robustes destinées à l'évaluation des systèmes de réponse aux questions ; nous démontrons des bornes humaines élevées sur ces métriques ; et nous établissons des résultats de base en utilisant des méthodes compétitives issues de la littérature connexe.

Natural Questions : une base de benchmark pour la recherche en réponse à des questions | Articles de recherche récents | HyperAI