Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

通过下一位置预测检测任何内容

面向语言中心的多模态表征学习的扩展































通过下一位置预测检测任何内容

面向语言中心的多模态表征学习的扩展






























DITING:用于基准测试网络小说翻译的多Agent评估框架
通过自监督预训练推进端到端像素空间生成建模
空间强制:面向视觉-语言-动作模型的隐式空间表征对齐
基于大型语言模型的偏好获取中的澄清性问题提问
CTRL-Rec:通过自然语言控制推荐系统
RLFR:通过流环境扩展用于LLM的强化学习
潜在精炼解码:通过精炼信念状态增强基于扩散的LLM
OmniVideoBench:面向全景多模态大模型的音视频理解评估
BEAR:面向原子化具身能力的多模态语言模型基准测试与增强
具有表示自编码器的扩散Transformer
QeRL:超越效率——面向LLMs的量化增强型强化学习
无需反向传播的威尔逊环:一种用于检测不变性与顺序敏感性的实用诊断方法
TUMIX:带有工具使用混合的多Agent测试时扩展
R-Horizon:你的大型推理模型在广度与深度上究竟能走多远?
AutoPR:让我们自动化你的学术晋升!
多模态提示优化:为何不利用多种模态来提升MLLMs?
旁路增强引导用于幻觉抑制的扩散采样
用相机思考:一种面向以相机为中心的感知与生成的统一多模态模型
D2E:在桌面数据上扩展视觉-动作预训练以实现向具身AI的迁移
Code2Video:一种以代码为中心的教育视频生成范式
博士偏见:人工智能驱动的医疗指导中的社会不平等
LLM的二阶优化潜力:基于完整高斯-牛顿法的研究
元认知增强推理模型:自对齐强化学习
从何到因:一种基于证据的化学反应条件推理多Agent系统
DreamOmni2:基于多模态指令的编辑与生成
VideoCanvas:通过上下文条件实现任意时空补丁的统一视频补全
UniVideo:视频的统一理解、生成与编辑
MemMamba:重新思考状态空间模型中的记忆模式
MM-HELIX:通过整体平台与自适应混合策略优化提升多模态长链反思推理
PromptCoT 2.0:面向大型语言模型推理的提示合成扩展
DITING:用于基准测试网络小说翻译的多Agent评估框架
通过自监督预训练推进端到端像素空间生成建模
空间强制:面向视觉-语言-动作模型的隐式空间表征对齐
基于大型语言模型的偏好获取中的澄清性问题提问
CTRL-Rec:通过自然语言控制推荐系统
RLFR:通过流环境扩展用于LLM的强化学习
潜在精炼解码:通过精炼信念状态增强基于扩散的LLM
OmniVideoBench:面向全景多模态大模型的音视频理解评估
BEAR:面向原子化具身能力的多模态语言模型基准测试与增强
具有表示自编码器的扩散Transformer
QeRL:超越效率——面向LLMs的量化增强型强化学习
无需反向传播的威尔逊环:一种用于检测不变性与顺序敏感性的实用诊断方法
TUMIX:带有工具使用混合的多Agent测试时扩展
R-Horizon:你的大型推理模型在广度与深度上究竟能走多远?
AutoPR:让我们自动化你的学术晋升!
多模态提示优化:为何不利用多种模态来提升MLLMs?
旁路增强引导用于幻觉抑制的扩散采样
用相机思考:一种面向以相机为中心的感知与生成的统一多模态模型
D2E:在桌面数据上扩展视觉-动作预训练以实现向具身AI的迁移
Code2Video:一种以代码为中心的教育视频生成范式
博士偏见:人工智能驱动的医疗指导中的社会不平等
LLM的二阶优化潜力:基于完整高斯-牛顿法的研究
元认知增强推理模型:自对齐强化学习
从何到因:一种基于证据的化学反应条件推理多Agent系统
DreamOmni2:基于多模态指令的编辑与生成
VideoCanvas:通过上下文条件实现任意时空补丁的统一视频补全
UniVideo:视频的统一理解、生成与编辑
MemMamba:重新思考状态空间模型中的记忆模式
MM-HELIX:通过整体平台与自适应混合策略优化提升多模态长链反思推理
PromptCoT 2.0:面向大型语言模型推理的提示合成扩展