11 天前

基于成对顺序一致性的程序性任务视频中的集合监督动作学习

{Ehsan Elhamifar, Zijia Lu}
基于成对顺序一致性的程序性任务视频中的集合监督动作学习
摘要

我们针对集合监督的动作学习问题展开研究,其目标是利用训练视频中动作集合这一弱监督形式,学习一个动作分割模型。我们的关键观察是:同一任务中的视频通常具有相似的动作顺序,这一特性可被有效利用以促进学习。为此,我们提出了一种基于注意力机制的方法,并引入一种新型的成对顺序一致性(Pairwise Ordering Consistency, POC)损失函数,该损失函数促使同一任务中任意两段视频内共同出现的动作对,其注意力分布遵循相似的顺序。与现有序列对齐方法不同,后者在处理动作顺序不同的视频时容易产生错位,或难以可靠地区分顺序一致性程度高低的情况,我们的POC损失能够高效对齐具有不同动作顺序的视频,且具有可微性,从而支持端到端的训练。此外,该方法避免了先前工作所需的耗时伪标签生成过程。我们的方法能够高效地学习动作及其时间位置,因此将现有的基于注意力的动作定位方法从单动作学习拓展至多动作学习,通过结合视频级和帧级损失以及POC损失实现。在三个数据集上的实验表明,本方法显著优于现有最先进水平。此外,我们还证明,仅通过少量修改,该方法即可有效应用于转录文本监督的动作学习任务,在此类任务中,训练阶段已知动作及其顺序信息。

基于成对顺序一致性的程序性任务视频中的集合监督动作学习 | 最新论文 | HyperAI超神经