Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

F1:一种连接理解与生成到行动的视觉-语言-行动模型

UMO:通过匹配奖励实现图像定制中的多身份一致性扩展































F1:一种连接理解与生成到行动的视觉-语言-行动模型

UMO:通过匹配奖励实现图像定制中的多身份一致性扩展






























重建对齐提升统一多模态模型
Mini-o3:面向视觉搜索的推理模式与交互轮次的扩展
多模态大语言模型的视觉表征对齐
并行-R1:通过强化学习实现并行思维
WenetSpeech-Yue:一个具有多维度标注的大规模粤语语音语料库
SheetDesigner:基于规则与视觉反馈的MLLM驱动电子表格布局生成
自主代码演化邂逅NP-完全性
深度研究系统中的强化学习基础:一项综述
工具增强的视觉感知
DINOv3 是否设定了新的医学视觉标准?
用于扩散大语言模型的强化学习框架的革命性革新
WebExplorer:用于训练长时序Web Agent的探索与演化
逆向工程推理用于开放式生成
OSC:多智能体LLM协作中的动态知识对齐认知编排
CURE:用于鲁棒嵌入的可控遗忘——缓解预训练语言模型中的概念捷径
MedVista3D:用于减少三维CT疾病检测、理解与报告中诊断错误的视觉-语言建模
LuxDiT:基于视频扩散Transformer的光照估计
WildScore:在野符号音乐推理中对MLLMs的基准测试
设置块解码是一种语言模型推理加速器
基于大型语言模型的符号图形编程
语言模型为何会产生幻觉
LatticeWorld:一种由多模态大语言模型驱动的交互式复杂世界生成框架
Recomposer:基于事件滚动引导的生成式音频编辑
转换模型:重新思考生成式学习目标
逆向 IFEval:LLMs 能否摒弃顽固的训练惯例以遵循真实指令?
DeepResearch Arena:通过研讨会基础任务对LLMs研究能力的首次检验
迈向大语言模型后训练的统一视角
从编辑到密集几何估计器
Drivel-ology:通过深度解读荒谬内容挑战LLM
龙:通过验证器实现大规模长链思维合成
重建对齐提升统一多模态模型
Mini-o3:面向视觉搜索的推理模式与交互轮次的扩展
多模态大语言模型的视觉表征对齐
并行-R1:通过强化学习实现并行思维
WenetSpeech-Yue:一个具有多维度标注的大规模粤语语音语料库
SheetDesigner:基于规则与视觉反馈的MLLM驱动电子表格布局生成
自主代码演化邂逅NP-完全性
深度研究系统中的强化学习基础:一项综述
工具增强的视觉感知
DINOv3 是否设定了新的医学视觉标准?
用于扩散大语言模型的强化学习框架的革命性革新
WebExplorer:用于训练长时序Web Agent的探索与演化
逆向工程推理用于开放式生成
OSC:多智能体LLM协作中的动态知识对齐认知编排
CURE:用于鲁棒嵌入的可控遗忘——缓解预训练语言模型中的概念捷径
MedVista3D:用于减少三维CT疾病检测、理解与报告中诊断错误的视觉-语言建模
LuxDiT:基于视频扩散Transformer的光照估计
WildScore:在野符号音乐推理中对MLLMs的基准测试
设置块解码是一种语言模型推理加速器
基于大型语言模型的符号图形编程
语言模型为何会产生幻觉
LatticeWorld:一种由多模态大语言模型驱动的交互式复杂世界生成框架
Recomposer:基于事件滚动引导的生成式音频编辑
转换模型:重新思考生成式学习目标
逆向 IFEval:LLMs 能否摒弃顽固的训练惯例以遵循真实指令?
DeepResearch Arena:通过研讨会基础任务对LLMs研究能力的首次检验
迈向大语言模型后训练的统一视角
从编辑到密集几何估计器
Drivel-ology:通过深度解读荒谬内容挑战LLM
龙:通过验证器实现大规模长链思维合成