2 个月前

面向流感知

Mengtian Li; Yu-Xiong Wang; Deva Ramanan
面向流感知
摘要

具身感知(Embodied perception)是指自主代理能够感知其环境,从而进行(重新)行动的能力。代理的响应性在很大程度上取决于其处理管道的延迟。尽管以往的研究探讨了延迟与准确性之间的算法权衡,但尚未有一种明确的指标来比较不同方法在帕累托最优延迟-准确性曲线上的表现。我们指出了标准离线评估与实时应用之间的一个差异:当算法完成对某一帧的处理时,周围的世界已经发生了变化。为此,我们提出了一种将延迟和准确性综合为单一指标的方法,用于实时在线感知,我们称之为“流式准确性”(streaming accuracy)。这一指标的关键在于,在每个时间点上联合评估整个感知堆栈的输出,迫使堆栈考虑在计算过程中应忽略多少流数据。更广泛地说,基于这一指标,我们引入了一个元基准测试框架,该框架系统地将任何单帧任务转换为流式感知任务。我们重点关注城市视频流中的物体检测和实例分割这两个示例任务,并贡献了一个具有高质量和时间密集注释的新数据集。我们的解决方案及其实证分析揭示了一些令人惊讶的结论:(1) 在帕累托最优延迟-准确性曲线上存在一个最优的“甜蜜点”,可以最大化流式准确性;(2) 异步跟踪和未来预测自然地作为内部表示出现,使流式感知成为可能;(3) 动态调度可以用来克服时间混叠效应,从而产生一种看似矛盾的结果——有时通过保持空闲并“无所作为”反而能最小化延迟。