HyperAIHyperAI
il y a 2 mois

CODAH : Un Jeu de Données de Questions-Réponses Créé par des Adversaires pour le Sens Commun

Michael Chen; Mike D'Arcy; Alisa Liu; Jared Fernandez; Doug Downey
CODAH : Un Jeu de Données de Questions-Réponses Créé par des Adversaires pour le Sens Commun
Résumé

Le raisonnement de bon sens est une capacité critique de l'IA, mais il est difficile de construire des jeux de données complexes qui testent le bon sens. Les systèmes récents d'answer aux questions basés sur des grands modèles pré-entraînés de langage ont déjà atteint des performances quasi-humaines sur les基准数据集 (benchmarks) de connaissances de bon sens. Ces systèmes ne possèdent pas un niveau humain de bon sens, mais sont capables d'exploiter les limites des jeux de données pour obtenir des scores au niveau humain.Nous présentons le jeu de données CODAH, un ensemble d'évaluation construit de manière antagoniste pour tester le bon sens. CODAH constitue une extension complexe du récent jeu de données SWAG, qui teste les connaissances de bon sens à l'aide de questions complétant des phrases décrivant des situations observées dans des vidéos. Pour produire un jeu de données plus difficile, nous introduisons une nouvelle procédure d'acquisition de questions dans laquelle les travailleurs conçoivent des questions visant à cibler les faiblesses des systèmes d'answer aux questions neuronaux les plus avancés. Les travailleurs sont récompensés pour leurs soumissions que les modèles échouent à répondre correctement avant et après l'affinage (en validation croisée). Nous créons 2 800 questions par ce biais et évaluons la performance de plusieurs systèmes d'answer aux questions d'avant-garde sur notre jeu de données. Nous constatons un écart significatif entre la performance humaine, qui est de 95,3 %, et celle du meilleur modèle BERT-Large, dont la précision est de 67,5 %.

CODAH : Un Jeu de Données de Questions-Réponses Créé par des Adversaires pour le Sens Commun | Articles de recherche récents | HyperAI