CrowdSpeech et VoxDIY : Jeux de données de référence pour la transcription audio par crowdsourcing

Les données spécifiques à un domaine sont la clé du transfert réussi des systèmes d'apprentissage automatique des benchmarks à la vie réelle. Dans des problèmes simples tels que la classification d'images, le crowdsourcing est devenu l'un des outils standards pour une collecte de données peu coûteuse et efficace en temps : grâce en grande partie aux progrès réalisés dans les méthodes d'agrégation. Cependant, l'applicabilité du crowdsourcing à des tâches plus complexes (par exemple, la reconnaissance vocale) reste limitée en raison du manque de méthodes d'agrégation fondées sur des principes pour ces modalités. L'obstacle principal à la conception de méthodes d'agrégation pour des applications plus avancées est l'absence de données d'entraînement, et dans ce travail, nous nous concentrons sur le comblement de ce fossé dans le domaine de la reconnaissance vocale. Pour cela, nous collectons et mettons à disposition CrowdSpeech -- le premier ensemble de données à grande échelle publiquement disponible contenant des transcriptions audio issues du crowdsourcing. L'évaluation des méthodes d'agrégation existantes et nouvelles sur nos données montre qu'il y a encore une marge d'amélioration, suggérant que notre travail pourrait conduire à la conception d'algorithmes meilleurs. À un niveau plus élevé, nous contribuons également au défi plus général de développer une méthodologie pour une collecte fiable de données via le crowdsourcing. À cet effet, nous concevons une pipeline fondée sur des principes pour construire des ensembles de données contenant des transcriptions audio issues du crowdsourcing dans tout nouveau domaine. Nous démontrons son applicabilité sur une langue sous-dotée en ressources en construisant VoxDIY -- une version russe équivalente à CrowdSpeech. Nous mettons également à disposition le code permettant une reproduction complète de notre pipeline de collecte de données et partageons diverses observations concernant les meilleures pratiques pour la collecte de données via le crowdsourcing.