8 个月前

计算机视觉

Bingyu Li Da Zhang Zhiyuan Zhao Junyu Gao Xuelong Li

摘要

多模态语义分割在复杂场景中显著提升了分割精度。然而，当前的方法通常包含针对特定模态定制的特征融合模块，这限制了输入的灵活性并增加了训练参数的数量。为了解决这些挑战，我们提出了一种简单而有效的模态融合框架——StitchFusion，该框架直接将大规模预训练模型作为编码器和特征融合器集成。这种方法促进了全面的多模态和多尺度特征融合，能够适应任何视觉模态输入。具体而言，我们的框架通过共享多模态视觉信息在编码过程中实现模态整合。为了增强跨模态的信息交换，我们引入了一个多方向适配器模块（MultiAdapter），以实现在编码过程中跨模态的信息传递。通过利用MultiAdapter在编码过程中传播多尺度信息，StitchFusion实现了在编码阶段的多模态视觉信息整合。广泛的对比实验表明，我们的模型仅需少量额外参数即可在四个多模态分割数据集上达到最先进的性能。此外，将MultiAdapter与现有的特征融合模块（FFMs）结合进行实验的结果突显了它们的互补性。我们的代码可在StitchFusion_repo获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Bingyu Li Da Zhang Zhiyuan Zhao Junyu Gao Xuelong Li

摘要

多模态语义分割在复杂场景中显著提升了分割精度。然而，当前的方法通常包含针对特定模态定制的特征融合模块，这限制了输入的灵活性并增加了训练参数的数量。为了解决这些挑战，我们提出了一种简单而有效的模态融合框架——StitchFusion，该框架直接将大规模预训练模型作为编码器和特征融合器集成。这种方法促进了全面的多模态和多尺度特征融合，能够适应任何视觉模态输入。具体而言，我们的框架通过共享多模态视觉信息在编码过程中实现模态整合。为了增强跨模态的信息交换，我们引入了一个多方向适配器模块（MultiAdapter），以实现在编码过程中跨模态的信息传递。通过利用MultiAdapter在编码过程中传播多尺度信息，StitchFusion实现了在编码阶段的多模态视觉信息整合。广泛的对比实验表明，我们的模型仅需少量额外参数即可在四个多模态分割数据集上达到最先进的性能。此外，将MultiAdapter与现有的特征融合模块（FFMs）结合进行实验的结果突显了它们的互补性。我们的代码可在StitchFusion_repo获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供