7 个月前

摘要

在人工智能领域的一个宏伟目标是构建一个能够基于自然语言指令准确导航的机器人，这需要该智能体能够感知场景、理解并定位语言，并在现实环境中采取行动。其中一个关键挑战是在训练过程中未见过的新环境中学习导航。现有的大多数方法在未见过的环境中的表现远不如已见过的环境。本文提出了一种可泛化的导航智能体。我们的智能体经过两个阶段的训练。第一阶段是通过混合模仿学习和强化学习进行训练，结合了离策略和在线策略优化的优势。第二阶段是通过新引入的“未见”三元组（环境、路径、指令）进行微调。为了生成这些未见三元组，我们提出了一种简单但有效的“环境丢弃”方法来模拟未见过的环境，从而克服了已见过环境变化有限的问题。接下来，我们在这些丢弃后的环境中应用半监督学习（通过反向翻译）以生成新的路径和指令。实证结果表明，当使用这些三元组进行微调时，我们的智能体在泛化能力方面显著提升，在Room-to-Room任务的私有未见测试集上大幅超越了现有最先进方法，并在排行榜上取得了最高排名。

源 PDF