HyperAIHyperAI

Command Palette

Search for a command to run...

LongFly:基于时空上下文融合的长时程无人机视觉-语言导航

Wen Jiang Li Wang Kangyao Huang Wei Fan Jinyuan Liu Shaoyu Liu Hongwei Duan Bin Xu Xiangyang Ji

Abstract

无人飞行器(UAV)在灾后搜救任务中发挥着至关重要的作用,然而在长时程导航场景下,其面临信息密度高、视角快速变化以及动态结构复杂等挑战。当前的UAV视觉-语言导航(VLN)方法难以在复杂环境中建模长时程的时空上下文,导致语义对齐不准确,路径规划不稳定。为此,我们提出LongFly——一种面向长时程UAV VLN的时空上下文建模框架。LongFly提出了一种历史感知的时空建模策略,能够将碎片化且冗余的历史数据转化为结构化、紧凑且富有表现力的表示形式。首先,我们设计了基于槽位的历史图像压缩模块,可动态地将多视角历史观测信息压缩为固定长度的上下文表征。其次,引入时空轨迹编码模块,以捕捉无人飞行器轨迹的时序动态性与空间结构特征。最后,为融合已有时空上下文与当前观测信息,我们构建了提示引导的多模态融合模块,支持基于时间的推理与鲁棒的航点预测。实验结果表明,LongFly在可见与不可见环境下的任务成功率均比当前最优的UAV VLN基线方法提升7.89%,路径长度加权的成功率提升6.33%,表现稳定且显著。

一句话总结

来自中国多个机构(包括国家自然科学基金、重庆市自然科学基金以及国家高技术研究发展计划)的作者提出 LongFly,一种用于长时程无人机视觉-语言导航的时空上下文建模框架,该框架融合了历史感知的视觉压缩、轨迹编码以及提示引导的多模态融合。通过将多视角历史观测动态提炼为紧凑的语义槽,并利用结构化提示将其与语言指令对齐,LongFly 在复杂三维环境中实现了鲁棒且具备时间感知能力的航点预测,在已见与未见场景下均比最先进方法取得 7.89% 更高的成功率和 6.33% 更优的路径长度加权成功率。

主要贡献

  • LongFly 通过引入统一的时空上下文建模框架,解决了复杂动态环境中长时程无人机视觉-语言导航的挑战,使系统在视角快速变化和信息高度密集的情况下仍能实现稳定、全局一致的决策。

  • 该方法包含基于槽位的历史图像压缩模块,可动态将多视角历史观测压缩为紧凑的固定长度表示;以及时空轨迹编码模块,能够捕捉无人机飞行路径的时间动态与空间结构。

  • 实验结果表明,LongFly 在已见与未见环境中均比最先进基线方法取得 7.89% 更高的成功率和 6.33% 更高的路径长度加权成功率,展现出在长时程导航任务中的鲁棒性能。

引言

作者针对无人飞行器(UAV)的长时程视觉-语言导航(VLN)问题展开研究,该能力在灾后搜救、环境监测以及复杂、无GPS环境下的地理空间数据采集中至关重要。尽管先前的无人机VLN方法在短距离任务上已取得进展,但在长时程导航中仍面临挑战,原因在于历史视觉与轨迹数据被碎片化、静态建模,导致语义对齐不佳和路径规划不稳定。现有方法通常将历史信息视为孤立的记忆线索,未将其整合进与语言指令和导航动态对齐的统一时空上下文中。为克服这一局限,作者提出 LongFly,一种时空上下文建模框架,通过基于槽位的压缩模块,将多视角历史图像动态压缩为与指令相关的紧凑表示;通过时空轨迹编码器捕捉轨迹动态;并通过提示引导的融合模块将多模态上下文与当前观测融合。该框架实现了鲁棒的时间感知推理与长序列中一致的航点预测,在已见与未见环境中均比最先进基线方法取得 7.89% 更高的成功率和 6.33% 更优的路径长度加权成功率。

方法

作者采用名为 LongFly 的时空上下文建模框架,以应对长时程无人机视觉-语言导航(VLN)的挑战。整体架构集成了三个关键模块,将碎片化的历史数据转化为结构化、紧凑的表示,以支持鲁棒的航点预测。框架首先处理当前指令和无人机的当前视觉观测,将其分词并投影至共享隐空间。同时,历史多视角图像与航点轨迹通过专用模块处理,生成压缩的视觉与运动表示。

第一模块:基于槽位的历史图像压缩(SHIC),解决了高效存储与检索长时程视觉信息的挑战。该模块使用基于 CLIP 的视觉编码器 Fv\mathcal{F}_vFv 处理历史多视角图像序列 R1,R2,,Rt1R_1, R_2, \ldots, R_{t-1}R1,R2,,Rt1,在每个时间步提取视觉标记 ZiZ_iZi。这些标记用于更新一组固定容量的可学习视觉记忆槽 SiS_iSi。更新机制将每个槽视为查询,视觉标记作为键与值,通过计算注意力权重对新视觉特征进行加权聚合。该过程通过门控循环单元(GRU)实现槽内存更新,最终生成紧凑的视觉记忆表示 St1S_{t-1}St1,捕捉持久性地标与空间布局。该方法将内存与计算复杂度从 O(t)O(t)O(t) 降低至 O(1)O(1)O(1)

第二模块:时空轨迹编码(STE),用于建模无人机的运动历史。该模块接收历史航点序列 P1,P2,,Pt1P_1, P_2, \ldots, P_{t-1}P1,P2,,Pt1,将绝对坐标转换为相对运动表示。每一步计算位移向量 ΔPi\Delta P_iΔPi,并将其分解为单位方向向量 di\mathbf{d}_idi 与运动尺度 rir_iri。二者拼接形成 4D 运动描述符 MiM_iMi。为编码时间顺序,添加时间嵌入 τi\tau_iτi,得到时间感知的运动表示 M~i\widetilde{M}_iMi。该表示随后通过残差 MLP 编码器投影至 ddd 维轨迹标记 tit_iti,生成轨迹标记序列 Tt1T_{t-1}Tt1,作为显式的运动先验。

第三模块:提示引导的多模态融合(PGM),将历史视觉记忆、轨迹标记、当前指令与观测整合为大语言模型的结构化提示。自然语言指令 LLL 通过 BERT 编码器编码并投影至统一隐空间。压缩后的视觉记忆 St1S_{t-1}St1 与轨迹标记 Tt1T_{t-1}Tt1 也投影至相同空间。这些组件连同当前视觉观测 RtR_tRt 一起,组织为包含任务指令、Qwen 兼容对话模板及无人机历史状态信息的结构化提示。该提示随后输入大语言模型(Qwen2.5-3B)以预测连续空间中的下一个 3D 航点 Pt+1P_{t+1}Pt+1。该设计实现了无需额外特征级融合机制的连贯长时程多模态推理。

实验

  • LongFly 在 OpenUAV 基准测试中表现卓越,在已见数据集上相比基线方法实现 NE 降低 33.03m、SR 提升 7.22%,OSR 与 SPL 提升超过 6.04%,在 Hard 分割上提升最为显著。
  • 在未见物体集上,LongFly 达到 43.87% 的 SR 与 64.56% 的 OSR,相比 NavFoM 在 SR 上提升 14.04%,OSR 提升 16.57%,在 Hard 子集上 NE 与 SPL 也取得显著提升。
  • 在未见地图集上,LongFly 在 Hard 分割中实现 24.88% 的 OSR 与 7.98% 的 SPL,是唯一保持合理性能的方法,而其他方法均失败(OSR ≈ 0),凸显其对新布局的鲁棒性。
  • 消融实验确认 SHIC 与 STE 模块均至关重要,二者结合效果最佳;提示引导融合与更长历史长度显著提升性能,尤其在长时程任务中。
  • SHIC 槽位数量分析显示,K=32 时性能最优,随着槽位增加,SR、SPL 与 NE 均有改善。
  • 定性结果表明,LongFly 通过时空上下文整合维持全局一致性,避免局部陷阱,而基线方法因短视推理导致漂移。

结果表明,LongFly 在所有未见环境中显著优于所有基线方法,实现最低 NE 与最高 SR、OSR 与 SPL。模型展现出强大泛化能力,尤其在未见物体与地图设置中,最大提升出现在具有挑战性的长时程场景中。

结果表明,LongFly 在所有难度级别上均显著优于所有基线方法,实现最低 NE 与最高 SR、OSR 与 SPL。在 Full 分割上,LongFly 相比基线 BS 将 NE 降低 29.39,SR 提升 20.03 个百分点,充分证明其在长时程导航中的有效性。

结果表明,模型在学习率 5 × 10⁻⁴ 时表现最佳,SR 达到最高 24.19%,SPL 达到最高 20.84%,同时 NE 保持在 91.84 的较低水平。在不同学习率下性能稳定,SR、OSR 与 SPL 变化微小,表明对学习率变化具有鲁棒性。

结果表明,采用提示引导融合的 LongFly 显著优于无提示版本,NE 从 102.45 降至 91.84,SR、OSR 与 SPL 均显著提升。全帧历史版本性能与 60 帧版本相当,表明更长历史带来边际收益递减,而提示引导对对齐时空上下文与指令至关重要。

作者对 SHIC 槽位数量进行消融研究,结果显示,槽位数从 8 增至 32 时,所有指标均得到提升。使用 32 个槽位时,模型表现最佳,NE 降至 91.84,SR 提升至 24.19%,OSR 达 43.86%,SPL 达 20.84%。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供