Command Palette

Search for a command to run...

1 个月前

旨在学习:面向低资源视觉-语言建模的Token级动态门控

Bianca-Mihaela Ganescu Suchir Salhan Andrew Caines Paula Buttery

旨在学习:面向低资源视觉-语言建模的Token级动态门控

摘要

在认知上合理规模的数据上训练视觉-语言模型,需要重新思考模型整合多模态信息的方式。在 BabyLM Challenge 2025 视觉赛道的约束条件下,我们提出一种轻量级解码器架构,包含三个关键设计:(1)基于 token 级别的动态门控机制,实现语言与视觉线索的自适应融合;(2)特征调制与通道注意力机制,以最大化有限视觉信息的利用效率;(3)辅助对比学习目标,用于提升视觉定位能力。在五个基准测试(BLiMP、BLiMP 补充数据集、EWoK、Winoground 和 VQA)上的评估表明,该模型在性能上可与现有多模态基线方法相媲美,甚至表现更优。尤为值得注意的是,我们的动态门控机制在无需显式监督的情况下,自动发现了具有可解释性的模式:对于实义词倾向于依赖视觉线索,而对于功能词则更依赖语言线索。尽管我们识别出挑战设置中存在一些局限性,例如全局图像嵌入带来的信息瓶颈,以及数据集划分导致的训练不稳定性,但本研究仍确立了动态门控机制在高效多模态学习中的强大潜力,即使在严苛约束下,也能同时实现良好的性能与可解释性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供