
摘要
我们提出一种新的学习方法——软条件提示学习(Soft Conditional Prompt Learning, SCP),该方法充分利用提示学习在航拍视频动作识别中的优势。本方法旨在通过引导模型关注输入视频中与动作相关的描述或指令,从而提升对每个智能体动作的预测能力,适用于航拍/机器人视觉感知任务。我们的框架支持多种提示形式,包括可学习提示、辅助视觉信息以及大型视觉模型,以进一步提升识别性能。我们提出一种软条件提示机制,能够根据不同的视频输入,动态地从提示专家池中学习生成相应的提示。通过与目标任务共享同一优化目标,所提出的SCP方法能够在优化提示以指导模型预测的同时,显式地学习两类知识:一是与输入无关的提示专家池(input-invariant prompt experts pool),二是依赖具体数据的输入相关提示知识(data-dependent prompt knowledge)。在实际应用中,我们在包含单智能体与多智能体动作场景的航拍视频数据集(Okutama、NECDrone)上观察到准确率提升了3.17%至10.2%。为进一步验证方法的有效性与泛化能力,我们还在地面摄像头视频数据集SSV2上进行了评估,取得了1.0%至3.6%的准确率提升。此外,我们已将该方法集成至ROS2系统中,以支持实际机器人应用场景。