RepLiQA Est Un Ensemble De Données De Réponses Aux Questions Possibles Pour L'analyse Comparative
Date
Taille
URL de publication
Catégories
RepLiQA est un ensemble de données d'évaluation contenant des triplets contexte-question-réponse, où le contexte est constitué de documents non factuels mais d'apparence naturelle sur des entités fictives qui n'existent pas dans la réalité (comme des personnes ou des lieux). RepLiQA a été créé artificiellement pour tester la capacité des grands modèles linguistiques (LLM) à trouver et à utiliser des informations contextuelles dans les documents fournis. Contrairement aux ensembles de données de questions-réponses existants, la nature sans faits de RepLiQA garantit que les performances du modèle ne sont pas perturbées par la capacité du LLM à mémoriser les faits à partir des données de formation, et on peut tester la capacité du modèle à exploiter le contexte fourni avec une plus grande confiance.
Les documents RepLiQA couvrent 17 sujets ou catégories de documents, notamment les politiques d'entreprise, les actualités sur la cybersécurité, la technologie et l'innovation locales, les problèmes environnementaux locaux, le folklore et la mythologie régionaux, la politique et la gestion locales, les articles d'actualité, l'économie et le marché locaux, le système éducatif local, les arts et la culture locaux, les actualités locales, les petites et moyennes entreprises, les rapports d'événements, la nourriture et les recettes régionales, les histoires communautaires, les sports et activités locaux, ainsi que la santé et le bien-être locaux. Des documents non factuels sont annotés dans ces sujets, couvrant des entités fictives/inventées qui ne sont documentées nulle part. Chaque document est accompagné de 5 paires de questions-réponses.