
摘要
最近提出的视听场景感知对话任务为虚拟助手、智能音箱及车载导航系统等设备的训练开辟了一条更加数据驱动的新路径。然而,迄今为止,关于如何有效从大量传感器所生成的海量数据中提取有意义信息,以支撑这些设备的计算引擎,仍知之甚少。为此,本文提出并深入分析了一个端到端训练的简单基线方法,用于视听场景感知对话任务。该方法通过注意力机制,以数据驱动的方式区分有效信号与干扰信号。我们在近期发布且极具挑战性的视听场景感知数据集上对所提方法进行了评估,结果表明,该方法在CIDEr指标上显著优于当前最先进水平,提升幅度超过20%。