18 天前
基于类别原型的对比学习用于多标签与细粒度教育视频分类
{Mubarak Shah, Todd Grindal, Ajay Divakaran, Madeline Cincebeaux, Sarah Gerard, Sujeong Kim, Claire Christensen, Anirban Roy, Rohit Gupta}

摘要
近年来,学龄前儿童在线媒体消费的持续增长,迫切需要基于数据驱动的工具,帮助教育工作者筛选适合幼儿学习的教育内容。本文提出一种用于检测在线视频中教育内容的方法。研究聚焦于两类广泛应用的教育内容类别:读写能力与数学。针对每一类,我们依据《共同核心标准》(Common Core Standards)选取具有代表性的子类别(即“代码”),例如,读写能力类包括“字母名称”“字母发音”,数学类包括“计数”“分类”等。由于视频可能同时包含多种类型的教育内容,且不同内容类别在视觉上具有相似性(如“字母名称”与“字母发音”),因此我们将该问题建模为细粒度的多标签分类任务。为此,本文提出一种基于类别原型的监督对比学习方法,能够有效处理具有多个标签的细粒度样本。该方法为每个类别学习一个类别原型,并设计损失函数,以最小化类别原型与其所属样本之间的距离,同时最大化其与其它类别样本之间的距离,从而增强类间区分能力。考虑到视觉与音频线索之间的对齐对于有效理解至关重要,我们采用多模态Transformer网络,以捕捉视频中视觉与音频特征之间的交互关系,同时学习视频的联合嵌入表示。为评估方法性能,我们构建了一个名为APPROVE的新数据集,该数据集来源于YouTube的教育视频,由教育研究专家进行细粒度教育类别标注。APPROVE包含193小时专家标注的视频,涵盖19个细粒度教育类别。实验结果表明,所提方法在APPROVE数据集及其他基准数据集(如Youtube-8M、COIN)上均显著优于现有强基线模型。相关数据集已公开,访问地址为:https://nusci.csl.sri.com/project/APPROVE。