8 个月前

计算机视觉

计算机视觉

Gueter Josmy Faure Min-Hung Chen Shang-Hong Lai

摘要

动作是指我们如何与环境互动，包括与其他人员、物体以及自身进行互动。在本文中，我们提出了一种新颖的多模态整体交互变换网络（Holistic Interaction Transformer, HIT），该网络利用了大多数人类动作中至关重要的但常被忽视的手部和姿态信息。所提出的“HIT”网络是一个全面的双模态框架，包含一个RGB流和一个姿态流。每个流分别建模人物、物体和手部的互动。在每个子网络内部，引入了一个模态内聚合模块（Intra-Modality Aggregation, IMA），该模块有选择性地合并各个交互单元。然后，来自每个模态的特征通过一种注意力融合机制（Attentive Fusion Mechanism, AFM）进行结合。最后，我们从时间上下文中提取线索，利用缓存记忆更好地对发生的动作进行分类。我们的方法在J-HMDB、UCF101-24和MultiSports数据集上显著优于先前的方法，并且在AVA数据集上也取得了具有竞争力的结果。代码将在https://github.com/joslefaure/HIT 上提供。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Gueter Josmy Faure Min-Hung Chen Shang-Hong Lai

摘要

动作是指我们如何与环境互动，包括与其他人员、物体以及自身进行互动。在本文中，我们提出了一种新颖的多模态整体交互变换网络（Holistic Interaction Transformer, HIT），该网络利用了大多数人类动作中至关重要的但常被忽视的手部和姿态信息。所提出的“HIT”网络是一个全面的双模态框架，包含一个RGB流和一个姿态流。每个流分别建模人物、物体和手部的互动。在每个子网络内部，引入了一个模态内聚合模块（Intra-Modality Aggregation, IMA），该模块有选择性地合并各个交互单元。然后，来自每个模态的特征通过一种注意力融合机制（Attentive Fusion Mechanism, AFM）进行结合。最后，我们从时间上下文中提取线索，利用缓存记忆更好地对发生的动作进行分类。我们的方法在J-HMDB、UCF101-24和MultiSports数据集上显著优于先前的方法，并且在AVA数据集上也取得了具有竞争力的结果。代码将在https://github.com/joslefaure/HIT 上提供。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供