Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

F5-TTS:一种通过流匹配实现流畅且忠实语音伪造的童话讲述者

VOccl3D:一种用于真实遮挡下3D人体姿态与形状估计的视频基准数据集































F5-TTS:一种通过流匹配实现流畅且忠实语音伪造的童话讲述者

VOccl3D:一种用于真实遮挡下3D人体姿态与形状估计的视频基准数据集






























Alpamayo-R1:面向长尾场景下可泛化的自动驾驶,连接推理与行为预测
环环相扣:一场关于测试时记忆、注意力偏差、保留与在线优化的探索之旅
重新思考文本到视觉生成中推理时扩展的提示设计
作为反探索的视觉-语言-动作模型引导:一种测试时扩展方法
OneThinker:面向图像与视频的全功能推理模型
ViDiC:视频差异描述
PretrainZero:强化主动预训练
每个Token都至关重要:在大型语言模型中泛化16M超长上下文
SimScale:通过大规模真实世界仿真学习驾驶
Skywork-R1V4:通过图像与DeepResearch的交织思维迈向智能多模态代理
基于最小人类监督的引导式自进化LLM
MultiShotMaster:一种可控制的多镜头视频生成框架
MG-Nav:通过稀疏空间记忆实现的双尺度视觉导航
一致性评论者:通过参考引导的注意力对齐修正生成图像中的不一致性
我们距离真正有用的深度研究Agent还有多远?
基于LLM的强化学习稳定性优化:方法与实践
Envision:面向因果世界过程洞察的统一理解与生成基准测试
LongVT:通过原生工具调用激励“以长视频进行思考”
从代码基础模型到Agent与应用:代码智能实用指南
基于物理驱动的时空建模用于AI生成视频检测
Mem-α:通过强化学习学习记忆构建
搜索自对弈:在无监督条件下推进Agent能力的边界
CudaForge:一种支持硬件反馈的CUDA内核优化Agent框架
ScaleNet:通过增量参数扩展预训练神经网络
优化块注意力混合
分形取证:通过分形水印实现主动式深度伪造检测与定位
思维链劫持
InstanceAssemble:通过实例组装注意力实现布局感知的图像生成
3EED:在三维空间中处处实现万物具身化
DetectiumFire:一个全面的多模态数据集,连接视觉与语言以实现火灾理解
Alpamayo-R1:面向长尾场景下可泛化的自动驾驶,连接推理与行为预测
环环相扣:一场关于测试时记忆、注意力偏差、保留与在线优化的探索之旅
重新思考文本到视觉生成中推理时扩展的提示设计
作为反探索的视觉-语言-动作模型引导:一种测试时扩展方法
OneThinker:面向图像与视频的全功能推理模型
ViDiC:视频差异描述
PretrainZero:强化主动预训练
每个Token都至关重要:在大型语言模型中泛化16M超长上下文
SimScale:通过大规模真实世界仿真学习驾驶
Skywork-R1V4:通过图像与DeepResearch的交织思维迈向智能多模态代理
基于最小人类监督的引导式自进化LLM
MultiShotMaster:一种可控制的多镜头视频生成框架
MG-Nav:通过稀疏空间记忆实现的双尺度视觉导航
一致性评论者:通过参考引导的注意力对齐修正生成图像中的不一致性
我们距离真正有用的深度研究Agent还有多远?
基于LLM的强化学习稳定性优化:方法与实践
Envision:面向因果世界过程洞察的统一理解与生成基准测试
LongVT:通过原生工具调用激励“以长视频进行思考”
从代码基础模型到Agent与应用:代码智能实用指南
基于物理驱动的时空建模用于AI生成视频检测
Mem-α:通过强化学习学习记忆构建
搜索自对弈:在无监督条件下推进Agent能力的边界
CudaForge:一种支持硬件反馈的CUDA内核优化Agent框架
ScaleNet:通过增量参数扩展预训练神经网络
优化块注意力混合
分形取证:通过分形水印实现主动式深度伪造检测与定位
思维链劫持
InstanceAssemble:通过实例组装注意力实现布局感知的图像生成
3EED:在三维空间中处处实现万物具身化
DetectiumFire:一个全面的多模态数据集,连接视觉与语言以实现火灾理解