Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

预训练数据上的强化学习

视觉运动策略中是否需要本体感觉状态?































预训练数据上的强化学习

视觉运动策略中是否需要本体感觉状态?






























Baseer:用于阿拉伯文文档到Markdown OCR的视觉-语言模型
GenExam:跨学科文本到图像测评
Nav-R1:具身场景中的推理与导航
MoEs 比你想象的更强大:基于 RoE 的超并行推理扩展
ARE:扩展Agent环境与评估
DiffusionNFT:基于前向过程的在线扩散强化
TempSamp-R1:面向视频LLM的强化微调有效时间采样
OnePiece:将上下文工程与推理引入工业级级联排序系统
OmniInsert:通过扩散Transformer模型实现无掩码的任意参考视频插入
LIMI:Agent的少即是多
一种模块化融合神经网络方法,用于高效预测蛋白质序列中的多金属结合位点
IndexTTS2:在情感表达丰富且时长可控的自回归零样本文本转语音领域的突破
直接对齐完整扩散轨迹与细粒度人类偏好
用于药物-药物相互作用预测的多尺度图神经过程与跨药物共注意力机制
GenCAD-3D:基于多模态潜在空间对齐与合成数据集平衡的CAD程序生成
BTL-UI:用于GUI Agent的Blink-Think-Link推理模型
Lynx:迈向高保真个性化视频生成
SPATIALGEN:布局引导的3D室内场景生成
BaseReward:多模态Reward Model的强大基线
潜在分区网络:生成建模、表示学习与分类的统一原理
MANZANO:一种具有混合视觉Tokenize的简单且可扩展的统一多模态模型
Oyster-I:超越拒绝——负责任语言模型的建设性安全对齐
计算即教师:将推理计算转化为无参考监督
RPG:用于统一且可扩展代码库生成的仓库规划图
合成自举预训练
基于再分析数据训练的机器学习天气模型实现精准的全球季节预测
FinSearchComp:迈向现实的、专家级别的金融搜索与推理评估
生成之前先理解:自引导训练用于自回归图像生成
无标签的演化语言模型:多数驱动选择,新颖促进变异
边界推理:通过推理时反思提升规范对齐
Baseer:用于阿拉伯文文档到Markdown OCR的视觉-语言模型
GenExam:跨学科文本到图像测评
Nav-R1:具身场景中的推理与导航
MoEs 比你想象的更强大:基于 RoE 的超并行推理扩展
ARE:扩展Agent环境与评估
DiffusionNFT:基于前向过程的在线扩散强化
TempSamp-R1:面向视频LLM的强化微调有效时间采样
OnePiece:将上下文工程与推理引入工业级级联排序系统
OmniInsert:通过扩散Transformer模型实现无掩码的任意参考视频插入
LIMI:Agent的少即是多
一种模块化融合神经网络方法,用于高效预测蛋白质序列中的多金属结合位点
IndexTTS2:在情感表达丰富且时长可控的自回归零样本文本转语音领域的突破
直接对齐完整扩散轨迹与细粒度人类偏好
用于药物-药物相互作用预测的多尺度图神经过程与跨药物共注意力机制
GenCAD-3D:基于多模态潜在空间对齐与合成数据集平衡的CAD程序生成
BTL-UI:用于GUI Agent的Blink-Think-Link推理模型
Lynx:迈向高保真个性化视频生成
SPATIALGEN:布局引导的3D室内场景生成
BaseReward:多模态Reward Model的强大基线
潜在分区网络:生成建模、表示学习与分类的统一原理
MANZANO:一种具有混合视觉Tokenize的简单且可扩展的统一多模态模型
Oyster-I:超越拒绝——负责任语言模型的建设性安全对齐
计算即教师:将推理计算转化为无参考监督
RPG:用于统一且可扩展代码库生成的仓库规划图
合成自举预训练
基于再分析数据训练的机器学习天气模型实现精准的全球季节预测
FinSearchComp:迈向现实的、专家级别的金融搜索与推理评估
生成之前先理解:自引导训练用于自回归图像生成
无标签的演化语言模型:多数驱动选择,新颖促进变异
边界推理:通过推理时反思提升规范对齐