17 天前

基于分层视频表征的行动分割优化

{Dongheui Lee, Hyemin Ahn}
基于分层视频表征的行动分割优化
摘要

本文提出了一种分层动作分割优化模型——Hierarchical Action Segmentation Refiner(HASR),该模型通过分层方式理解给定视频的整体上下文,对来自不同模型的时序动作分割结果进行精细化优化。当主干分割模型估计视频的分割方式时,我们的模型首先基于帧级特征提取片段级表示,并进一步基于这些片段级表示构建视频级表示。依托这一分层表示结构,HASR能够参考整个视频的全局上下文信息,从而预测并修正那些上下文不一致的片段标签。HASR可无缝集成至多种动作分割模型(如MS-TCN、SSTDA、ASRF)中,并在三个具有挑战性的数据集(GTEA、50Salads 和 Breakfast)上显著提升当前最先进模型的性能。例如,在50Salads数据集上,段级编辑得分分别从MS-TCN的67.9%提升至77.4%,从SSTDA的75.8%提升至77.3%,从ASRF的79.3%提升至81.0%。此外,该模型还具备对未见主干模型(即训练阶段未参与的模型)的分割结果进行优化的能力,展现出优异的泛化性能。这一特性使HASR成为提升现有时序动作分割方法性能的有效工具。相关代码已公开,地址为:https://github.com/cotton-ahn/HASR_iccv2021。