8 个月前

计算机视觉

Meng-Jiun Chiou Chun-Yu Liao Li-Wei Wang Roger Zimmermann Jiashi Feng

摘要

检测人-物交互（Human-Object Interaction, HOI）是实现机器全面视觉理解的重要步骤。虽然从静态图像中检测非时间相关的HOI（例如，坐在椅子上）是可行的，但即使对于人类而言，仅凭单个视频帧来猜测时间相关的HOI（例如，开门/关门）也是困难的，因为相邻帧在其中起着关键作用。然而，传统的仅基于静态图像的HOI方法被用于预测时间相关交互，这本质上是在没有时间上下文的情况下进行猜测，可能导致性能不佳。在本文中，我们通过检测带有显式时间信息的视频HOI来弥合这一差距。首先，我们展示了常见的动作检测基线方法的一个简单的时间感知变体由于特征不一致性问题而无法应用于视频HOI。接着，我们提出了一种简单而有效的架构——时空HOI检测（Spatial-Temporal HOI Detection, ST-HOI），该架构利用了时间信息如人体和物体轨迹、准确定位的视觉特征以及时空遮罩姿态特征。我们构建了一个新的视频HOI基准数据集，命名为VidHOI，在该数据集中我们的方法作为坚实的基线模型。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Meng-Jiun Chiou Chun-Yu Liao Li-Wei Wang Roger Zimmermann Jiashi Feng

摘要

检测人-物交互（Human-Object Interaction, HOI）是实现机器全面视觉理解的重要步骤。虽然从静态图像中检测非时间相关的HOI（例如，坐在椅子上）是可行的，但即使对于人类而言，仅凭单个视频帧来猜测时间相关的HOI（例如，开门/关门）也是困难的，因为相邻帧在其中起着关键作用。然而，传统的仅基于静态图像的HOI方法被用于预测时间相关交互，这本质上是在没有时间上下文的情况下进行猜测，可能导致性能不佳。在本文中，我们通过检测带有显式时间信息的视频HOI来弥合这一差距。首先，我们展示了常见的动作检测基线方法的一个简单的时间感知变体由于特征不一致性问题而无法应用于视频HOI。接着，我们提出了一种简单而有效的架构——时空HOI检测（Spatial-Temporal HOI Detection, ST-HOI），该架构利用了时间信息如人体和物体轨迹、准确定位的视觉特征以及时空遮罩姿态特征。我们构建了一个新的视频HOI基准数据集，命名为VidHOI，在该数据集中我们的方法作为坚实的基线模型。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供