Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

无需缩放的缩放:面向细粒度多模态感知的区域到图像知识蒸馏

少即是足:在LLM的特征空间中合成多样化数据































无需缩放的缩放:面向细粒度多模态感知的区域到图像知识蒸馏

少即是足:在LLM的特征空间中合成多样化数据






























GigaBrain-0.5M*:一种基于世界模型强化学习的VLA
MOSS-Audio-Tokenizer:面向未来音频基础模型的音频分词器扩展
超越教师的学习:基于奖励外推的广义在线策略蒸馏
DeepGen 1.0:一种轻量级统一多模态模型,用于推进图像生成与编辑
Composition-RL:为大语言模型强化学习构建可验证的提示词组合
Moltbook背后的魔鬼:在自我演化的AI社会中,Anthropic安全始终在消逝
迈向自主数学研究
何时记忆,何时停止:面向长上下文推理的门控循环记忆
ASA:面向工具调用领域适应的激活控制
PhyCritic:面向物理AI的多模态批评者模型
GENIUS:生成式流体智能评估套件
Step 3.5 Flash:以 11B 激活参数开启前沿级智能
世界-VLA-环:视频世界模型与VLA策略的闭环学习
迈向自主数学研究
Agent世界模型:用于智能体强化学习的无限合成环境
P1-VL:连接视觉感知与物理奥赛中的科学推理
思维链:基于自适应认知模式的推理
UI-Venus-1.5 技术报告
Code2World:一种通过可渲染代码生成的GUI世界模型
OPUS:面向大语言模型预训练中每轮迭代的高效且原则性数据选择
BagelVLA:通过交错视觉-语言-动作生成提升长时程操作能力
THINGS-data:用于研究人类大脑与行为中物体表征的大规模多模态数据集集合
利用 IsoDDE 对新型生物分子相互作用进行准确预测
SKILLRL:通过递归式技能增强强化学习实现 Agents 的演进
LLaDA2.1:通过Token编辑加速文本扩散
通过建模基于流的GRPO中的步骤级与长期采样效应缓解稀疏奖励问题
循环深度视觉-语言-动作模型:通过潜在迭代推理实现视觉-语言-动作模型的隐式测试时计算扩展
QuantaAlpha:一种面向LLM驱动的Alpha挖掘的进化框架
模态间隙驱动的子空间对齐训练范式用于多模态大语言模型
MOVA:迈向可扩展且同步的视频-音频生成
GigaBrain-0.5M*:一种基于世界模型强化学习的VLA
MOSS-Audio-Tokenizer:面向未来音频基础模型的音频分词器扩展
超越教师的学习:基于奖励外推的广义在线策略蒸馏
DeepGen 1.0:一种轻量级统一多模态模型,用于推进图像生成与编辑
Composition-RL:为大语言模型强化学习构建可验证的提示词组合
Moltbook背后的魔鬼:在自我演化的AI社会中,Anthropic安全始终在消逝
迈向自主数学研究
何时记忆,何时停止:面向长上下文推理的门控循环记忆
ASA:面向工具调用领域适应的激活控制
PhyCritic:面向物理AI的多模态批评者模型
GENIUS:生成式流体智能评估套件
Step 3.5 Flash:以 11B 激活参数开启前沿级智能
世界-VLA-环:视频世界模型与VLA策略的闭环学习
迈向自主数学研究
Agent世界模型:用于智能体强化学习的无限合成环境
P1-VL:连接视觉感知与物理奥赛中的科学推理
思维链:基于自适应认知模式的推理
UI-Venus-1.5 技术报告
Code2World:一种通过可渲染代码生成的GUI世界模型
OPUS:面向大语言模型预训练中每轮迭代的高效且原则性数据选择
BagelVLA:通过交错视觉-语言-动作生成提升长时程操作能力
THINGS-data:用于研究人类大脑与行为中物体表征的大规模多模态数据集集合
利用 IsoDDE 对新型生物分子相互作用进行准确预测
SKILLRL:通过递归式技能增强强化学习实现 Agents 的演进
LLaDA2.1:通过Token编辑加速文本扩散
通过建模基于流的GRPO中的步骤级与长期采样效应缓解稀疏奖励问题
循环深度视觉-语言-动作模型:通过潜在迭代推理实现视觉-语言-动作模型的隐式测试时计算扩展
QuantaAlpha:一种面向LLM驱动的Alpha挖掘的进化框架
模态间隙驱动的子空间对齐训练范式用于多模态大语言模型
MOVA:迈向可扩展且同步的视频-音频生成