HyperAIHyperAI

Command Palette

Search for a command to run...

Obstacles au progrès dans la réponse à des questions longues

Kalpesh Krishna Aurko Roy Mohit Iyyer

Résumé

La tâche de réponse à question à longue forme (LFQA) consiste à récupérer des documents pertinents par rapport à une question donnée, puis à les utiliser pour générer une réponse de longueur paragraphe. Bien que de nombreux modèles aient récemment été proposés pour la LFQA, nous montrons dans cet article que la formulation de cette tâche soulève des défis fondamentaux en matière d’évaluation et de création de jeux de données, qui entravent actuellement tout progrès significatif dans le domaine. Pour illustrer ces difficultés, nous concevons d’abord un nouveau système reposant sur une attention creuse et un apprentissage contrastif de récupération, permettant d’atteindre des performances de pointe sur le jeu de données ELI5 pour la LFQA. Bien que notre système figure en tête du classement public, une analyse détaillée révèle plusieurs tendances préoccupantes : (1) les réponses générées par notre système ne sont pas réellement ancrées dans les documents qu’il récupère ; (2) le jeu de données ELI5 présente un chevauchement important entre les ensembles d’entraînement et de validation, au moins 81 % des questions de validation apparaissant sous forme paraphrasée dans l’ensemble d’entraînement ; (3) le score ROUGE-L n’est pas un indicateur pertinent de la qualité des réponses générées et peut être facilement manipulé ; (4) les évaluations humaines utilisées pour d’autres tâches de génération de texte s’avèrent peu fiables dans le cadre de la LFQA. Nous proposons des pistes pour atténuer chacun de ces problèmes, dans l’espoir que ces recommandations conduiront à une recherche plus rigoureuse sur la LFQA et à des progrès véritablement significatifs à l’avenir.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Obstacles au progrès dans la réponse à des questions longues | Articles | HyperAI