8ヶ月前

概要

特定ドメインのデータが、機械学習システムをベンチマークから実際の生活に成功裏に移行させる上で重要な役割を果たします。単純な問題である画像分類では、クラウドソーシングは安価で時間効率の高いデータ収集手段として標準的なツールの一つとなっています。これは、集約手法に関する研究の進歩のおかげです。しかし、音声認識などのより複雑なタスクにおけるクラウドソーシングの適用性は、これらのモダリティに対する原理に基づいた集約手法の欠如により制限されています。より高度なアプリケーション向けの集約手法を開発するための主な障壁は、訓練データの不足です。本研究では、このギャップを埋めるために音声認識に焦点を当てています。そのため、CrowdSpeech（クラウドソーシング音声転写の大規模公開データセット）という初めての大規模公開クラウドソーシング音声転写データセットを収集し提供します。既存および新規の集約手法を当社のデータで評価した結果、改善の余地があることが示されました。これは、当社の研究がより良いアルゴリズム設計につながる可能性があることを示唆しています。さらに高次のレベルでは、信頼性のあるクラウドソーシングによるデータ収集方法論開発への貢献も目指しています。これに関連して、任意の新しいドメインでのクラウドソーシング音声転写データセット構築用の原理に基づいたパイプラインを開発しました。このパイプラインの一貫性をロシア語という資源が少ない言語で検証するために、VoxDIY（ロシア語版CrowdSpeech）という対応するデータセットを作成しました。また、当社のデータ収集パイプラインを完全に再現できるコードと、クラウドソーシングによるデータ収集中的最佳実践に関する様々な洞察も公開しています。以上が翻訳となります。ご確認ください。

ソースPDF