Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

手动解码的终结:迈向真正端到端的语言模型

人类与AI的互补性:增强监督的目标































手动解码的终结:迈向真正端到端的语言模型

人类与AI的互补性:增强监督的目标






























GPTOpt:面向高效基于LLM的黑箱优化
VFXMaster:通过上下文学习解锁动态视觉效果生成
基于流程挖掘的推理感知GRPO
通过循环语言模型实现潜在推理的扩展
ReForm:基于前瞻性有限序列优化的反思式自动形式化
Video-Thinker:通过强化学习激发“用视频进行思考”
JanusCoder:迈向代码智能的基础性视觉-程序化接口
MCP-Flow:助力LLM Agent掌握现实世界中多样化且可扩展的MCP工具
OmniCast:一种用于跨时间尺度天气预报的掩码潜在扩散模型
用于视频生成的带有度量路径的均匀离散扩散
Game-TARS:用于可扩展通用多模态Game Agent的预训练基础模型
RoboOmni:全景模态上下文中的主动式机器人操作
AgentFold:具有主动上下文管理的长时序Web Agent
通义DeepResearch技术报告
InteractComp:使用模糊查询评估Search Agent
VLM-SlideEval:在PPT中评估VLMs的结构化理解与扰动敏感性
TeraSim-World:面向端到端自动驾驶的全球安全关键数据合成
前瞻锚定:在基于音频的人体动画中保持角色身份
VITA-E:自然具身交互中的并发视觉、听觉、语言生成与行动
FARMER:基于像素的流式自回归Transformer
数据Agent综述:新兴范式还是被夸大的炒作?
ReCode:统一规划与执行以实现通用粒度控制
Concerto:联合2D-3D自监督学习涌现空间表征
Magellan:用于潜在空间探索与新颖性生成的引导式MCTS
DEEDEE:快速且可扩展的分布外动态检测
通过Token重排实现更稀疏的块稀疏注意力
AGI的定义
从去噪到精炼:一种面向视觉-语言扩散模型的校正框架
逐步采样,分块优化:面向文本到图像生成的分块级GRPO
视频作为提示:视频生成的统一语义控制
GPTOpt:面向高效基于LLM的黑箱优化
VFXMaster:通过上下文学习解锁动态视觉效果生成
基于流程挖掘的推理感知GRPO
通过循环语言模型实现潜在推理的扩展
ReForm:基于前瞻性有限序列优化的反思式自动形式化
Video-Thinker:通过强化学习激发“用视频进行思考”
JanusCoder:迈向代码智能的基础性视觉-程序化接口
MCP-Flow:助力LLM Agent掌握现实世界中多样化且可扩展的MCP工具
OmniCast:一种用于跨时间尺度天气预报的掩码潜在扩散模型
用于视频生成的带有度量路径的均匀离散扩散
Game-TARS:用于可扩展通用多模态Game Agent的预训练基础模型
RoboOmni:全景模态上下文中的主动式机器人操作
AgentFold:具有主动上下文管理的长时序Web Agent
通义DeepResearch技术报告
InteractComp:使用模糊查询评估Search Agent
VLM-SlideEval:在PPT中评估VLMs的结构化理解与扰动敏感性
TeraSim-World:面向端到端自动驾驶的全球安全关键数据合成
前瞻锚定:在基于音频的人体动画中保持角色身份
VITA-E:自然具身交互中的并发视觉、听觉、语言生成与行动
FARMER:基于像素的流式自回归Transformer
数据Agent综述:新兴范式还是被夸大的炒作?
ReCode:统一规划与执行以实现通用粒度控制
Concerto:联合2D-3D自监督学习涌现空间表征
Magellan:用于潜在空间探索与新颖性生成的引导式MCTS
DEEDEE:快速且可扩展的分布外动态检测
通过Token重排实现更稀疏的块稀疏注意力
AGI的定义
从去噪到精炼:一种面向视觉-语言扩散模型的校正框架
逐步采样,分块优化:面向文本到图像生成的分块级GRPO
视频作为提示:视频生成的统一语义控制