在包含真实录音与合成声景的异构数据集上训练声音事件检测算法,是一项具有挑战性的任务,尤其当数据标注粒度存在差异时,往往需要做出多项技术决策。这些技术选择常被沿用于后续系统中,却很少被深入审视。本文针对 DCASE 2020 任务 4 的声音事件检测基线方法,从多个维度进行了详尽分析,包括训练所用数据类型、Mean-Teacher 模型的参数设置,以及合成声景生成过程中所采用的数据增强变换等。分析结果表明,一些通常作为默认配置的参数实际上并非最优选择。