
摘要
研究表明,原始视频中存在显著的特征冗余,许多情况下仅需处理部分帧即可满足准确识别的需求。本文关注这一冗余特性是否能够被有效利用,以提升连续手语识别(Continuous Sign Language Recognition, CSLR)任务中的推理效率。为此,我们提出一种新型自适应模型——AdaBrowse,将该问题建模为序列决策任务,动态地从输入视频序列中选择最具信息量的子序列进行处理。具体而言,首先采用轻量级网络对输入视频进行快速扫描,提取粗粒度特征;随后,将这些特征输入策略网络,智能地筛选出需进一步处理的子序列;最后,由标准的CSLR模型对所选子序列进行推理,完成句子预测。由于仅对部分帧进行计算,整体计算开销显著降低。除了时间维度上的冗余,我们进一步探索是否可将固有的空间冗余无缝融合,以实现更高效的处理——即针对每个样本动态选择最低输入分辨率,该改进版本称为AdaBrowse+。在四个大规模CSLR数据集(PHOENIX14、PHOENIX14-T、CSL-Daily和CSL)上的大量实验结果表明,AdaBrowse与AdaBrowse+在保持与当前最先进方法相当识别精度的同时,实现了1.44倍的吞吐量提升和2.12倍的浮点运算量(FLOPs)减少。与多种常用2D卷积神经网络及自适应高效方法的对比进一步验证了AdaBrowse的有效性。相关代码已开源,地址为:\url{https://github.com/hulianyuyy/AdaBrowse}。