
摘要
计算机能否判断钢琴演奏者的技能水平?评估这一水平时,基于对演奏者表现的视觉分析是否优于听觉判断?由于当前的卷积神经网络(CNN)在处理长视频时存在困难,如何采样较短的片段以最好地反映演奏者的技能水平?在这项研究中,我们收集并发布了首个用于多模态技能评估的数据集,重点关注评估钢琴演奏者的技能水平,回答了上述问题,并启动了自动评估钢琴演奏技能的研究工作,为未来的研究提供了基线。数据集可从以下链接获取:https://github.com/ParitoshParmar/Piano-Skills-Assessment。