8 个月前

多模态表征

计算机视觉

Shahaf Pruss Morris Alper Hadar Averbuch-Elor

摘要

描绘复杂动态场景的图像自动解析具有挑战性，需要对整体情境进行高层次的理解以及对参与实体及其互动进行细致的识别。目前的方法通常使用针对子任务（如情境识别和人与人、人与物体交互检测）定制的不同方法。然而，最近在图像理解方面的进展往往利用了网络规模的视觉-语言（V&L）表示来减少特定任务的工程需求。在这项工作中，我们提出了一种通过利用现代冻结的V&L表示知识来解决动态场景理解任务的框架。通过将这些任务以一种通用的方式——预测和解析结构化文本，或将表示直接连接到现有模型的输入——我们取得了最先进的结果，同时相对于现有的方法使用了最少的可训练参数。此外，我们对这些表示中的动态知识进行了分析，结果显示最近更强大的表示有效地编码了动态场景的语义，使得这种方法成为可能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Shahaf Pruss Morris Alper Hadar Averbuch-Elor

摘要

描绘复杂动态场景的图像自动解析具有挑战性，需要对整体情境进行高层次的理解以及对参与实体及其互动进行细致的识别。目前的方法通常使用针对子任务（如情境识别和人与人、人与物体交互检测）定制的不同方法。然而，最近在图像理解方面的进展往往利用了网络规模的视觉-语言（V&L）表示来减少特定任务的工程需求。在这项工作中，我们提出了一种通过利用现代冻结的V&L表示知识来解决动态场景理解任务的框架。通过将这些任务以一种通用的方式——预测和解析结构化文本，或将表示直接连接到现有模型的输入——我们取得了最先进的结果，同时相对于现有的方法使用了最少的可训练参数。此外，我们对这些表示中的动态知识进行了分析，结果显示最近更强大的表示有效地编码了动态场景的语义，使得这种方法成为可能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供