
摘要
长期动作质量评估是一项旨在评价动作执行优劣的任务,即从一段长视频中估计出动作的质量得分。直观上,长期动作通常包含不同技能水平的组成部分,我们将这些技能水平称为表现等级。例如,在同一段长期动作中,可能同时出现技术亮点与失误。因此,最终的质量得分应由视频中呈现的不同等级的综合效应决定。为探索这一潜在关联,我们设计了一种受心理测量学中李克特量表(Likert scale)启发的新型李克特评分范式。该范式通过显式量化各个表现等级,并结合从视频中估计出的各等级对应响应值,以加权融合的方式生成最终质量得分,而非采用直接回归的方法。此外,我们利用具有多样化可学习查询(learnable queries)的Transformer解码器架构,提取与等级相关的特征,用于估计每个等级的响应值。整个模型命名为“等级解耦李克特Transformer”(Grade-decoupling Likert Transformer, GDLT),并在两个长期动作质量评估数据集上取得了当前最优的性能表现。