6 个月前

多模态表征

统一多模态

Sihan Chen Xingjian He Handong Li Xiaojie Jin Jiashi Feng Jing Liu

摘要

由于视频-文本训练语料库在规模和质量上的局限性，大多数视觉-语言基础模型在预训练阶段仅采用图像-文本数据集，主要关注视觉语义表示的建模，而忽视了时间语义表示及其关联性。为解决这一问题，我们提出COSA（COncatenated SAmple pretrained vision-language foundation model），一种基于图像-文本语料库进行联合预训练的视觉-语言基础模型。COSA仅利用图像-文本语料库，即可同时建模视觉内容与事件级时间线索。我们通过将多个图像-文本对按顺序拼接作为预训练输入，实现这一目标。该方法有效将现有的图像-文本语料库转换为一种伪长视频-段落语料库，从而支持更丰富的场景演变建模，并建立明确的事件描述对应关系。大量实验表明，COSA在多种下游任务中均表现出持续的性能提升，涵盖长视频/短视频-文本任务以及图像-文本任务（如检索、图像描述生成和视觉问答）。尤为突出的是，COSA在多个具有竞争力的基准测试中取得了当前最优（SOTA）性能。相关代码与模型已开源，地址为：https://github.com/TXH-mercury/COSA。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

统一多模态

Sihan Chen Xingjian He Handong Li Xiaojie Jin Jiashi Feng Jing Liu

摘要

由于视频-文本训练语料库在规模和质量上的局限性，大多数视觉-语言基础模型在预训练阶段仅采用图像-文本数据集，主要关注视觉语义表示的建模，而忽视了时间语义表示及其关联性。为解决这一问题，我们提出COSA（COncatenated SAmple pretrained vision-language foundation model），一种基于图像-文本语料库进行联合预训练的视觉-语言基础模型。COSA仅利用图像-文本语料库，即可同时建模视觉内容与事件级时间线索。我们通过将多个图像-文本对按顺序拼接作为预训练输入，实现这一目标。该方法有效将现有的图像-文本语料库转换为一种伪长视频-段落语料库，从而支持更丰富的场景演变建模，并建立明确的事件描述对应关系。大量实验表明，COSA在多种下游任务中均表现出持续的性能提升，涵盖长视频/短视频-文本任务以及图像-文本任务（如检索、图像描述生成和视觉问答）。尤为突出的是，COSA在多个具有竞争力的基准测试中取得了当前最优（SOTA）性能。相关代码与模型已开源，地址为：https://github.com/TXH-mercury/COSA。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供