8 个月前

计算机视觉

Hyunjin Cho; Dong Un Kang; Se Young Chun

摘要

短期物体交互预测是第一人称视频分析中的一个重要任务，包括对未来交互及其时间的精确预测以及参与交互的活动物体的类别和位置。为了缓解这一任务的复杂性，我们提出的方法SOIA-DOD有效地将其分解为1）检测活动物体和2）分类交互并预测其时间。我们的方法首先通过微调预训练的YOLOv9模型来检测第一人称视频最后一帧中所有潜在的活动物体。然后，我们将这些潜在的活动物体作为查询与 Transformer 编码器结合，从而识别出最有可能成为下一个活动物体的对象，并预测其未来的交互行为及接触时间。实验结果表明，我们的方法在挑战测试集上优于现有最先进的模型，在预测下一个活动物体及其交互方面表现出色。最后，当包含接触时间预测时，我们的方法在总体前五名平均精度（mAP）排名中位列第三。源代码可在https://github.com/KeenyJin/SOIA-DOD 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Hyunjin Cho; Dong Un Kang; Se Young Chun

摘要

短期物体交互预测是第一人称视频分析中的一个重要任务，包括对未来交互及其时间的精确预测以及参与交互的活动物体的类别和位置。为了缓解这一任务的复杂性，我们提出的方法SOIA-DOD有效地将其分解为1）检测活动物体和2）分类交互并预测其时间。我们的方法首先通过微调预训练的YOLOv9模型来检测第一人称视频最后一帧中所有潜在的活动物体。然后，我们将这些潜在的活动物体作为查询与 Transformer 编码器结合，从而识别出最有可能成为下一个活动物体的对象，并预测其未来的交互行为及接触时间。实验结果表明，我们的方法在挑战测试集上优于现有最先进的模型，在预测下一个活动物体及其交互方面表现出色。最后，当包含接触时间预测时，我们的方法在总体前五名平均精度（mAP）排名中位列第三。源代码可在https://github.com/KeenyJin/SOIA-DOD 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供