Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

SWE-Exp:基于经验的软件问题解决

PixNerd:像素神经场扩散































SWE-Exp:基于经验的软件问题解决

PixNerd:像素神经场扩散






























超越固定长度:用于扩散大语言模型的可变长度去噪
认知内核-Pro:面向深度研究Agent与Agent基础模型训练的框架
协同生成人工智能:迈向增强型、参与式的生命周期
iLRM:一种迭代式大规模3D重建模型
villa-X:提升视觉-语言-动作模型中的潜在动作建模
C3:一个用于探索复杂对话中挑战的双语口语对话模型基准
RecGPT 技术报告
Phi-Ground 技术报告:推进GUI接地中的感知能力
Seed-Prover:自动化定理证明中的深度与广度推理
野外环境下的合成语音检测:少即是多
基于方案感知与全局的ReLU选择:部分MILP在DNN验证中强势回归
思维链自指导:为推理与非推理任务构建高质量的合成提示
指向性音视频分割中的全模态表达与推理
基于弱监督的无人机影像未见域车辆检测器自适应方法
VL-Cogito:面向高级多模态推理的渐进式课程强化学习
Falcon-H1:一类混合头语言模型,重新定义效率与性能
BANG:通过生成式爆炸动力学划分3D资产
ScreenCoder:通过模块化多模态Agent推进前端自动化中的视觉到代码生成
MIRepNet:一种基于EEG的运动想象分类的流水线与基础模型
ChemDFM-R:一种融合原子化化学知识的化学推理LLM
X-Omni:强化学习让离散自回归图像生成模型重放光彩
HunyuanWorld 1.0:从文本或像素生成沉浸式、可探索且可交互的3D世界
AlphaEarth Foundations:一种基于稀疏标签数据的准确高效全球地图构建嵌入场模型
基于可解释深度学习模型的长时序ENSO预测
OmniArch:面向科学计算的基础模型构建
UI-AGILE:通过有效的强化学习和精确的推理期对齐推进GUI代理
DualSG:一种双流显式语义引导的多变量时间序列预测框架
当 Tokens 讲得太多:跨图像、视频和音频的多模态长上下文 Tokens 压缩综述
SmallThinker:一个为本地部署原生训练的高效大型语言模型家族
重建4D空间智能:一项综述
超越固定长度:用于扩散大语言模型的可变长度去噪
认知内核-Pro:面向深度研究Agent与Agent基础模型训练的框架
协同生成人工智能:迈向增强型、参与式的生命周期
iLRM:一种迭代式大规模3D重建模型
villa-X:提升视觉-语言-动作模型中的潜在动作建模
C3:一个用于探索复杂对话中挑战的双语口语对话模型基准
RecGPT 技术报告
Phi-Ground 技术报告:推进GUI接地中的感知能力
Seed-Prover:自动化定理证明中的深度与广度推理
野外环境下的合成语音检测:少即是多
基于方案感知与全局的ReLU选择:部分MILP在DNN验证中强势回归
思维链自指导:为推理与非推理任务构建高质量的合成提示
指向性音视频分割中的全模态表达与推理
基于弱监督的无人机影像未见域车辆检测器自适应方法
VL-Cogito:面向高级多模态推理的渐进式课程强化学习
Falcon-H1:一类混合头语言模型,重新定义效率与性能
BANG:通过生成式爆炸动力学划分3D资产
ScreenCoder:通过模块化多模态Agent推进前端自动化中的视觉到代码生成
MIRepNet:一种基于EEG的运动想象分类的流水线与基础模型
ChemDFM-R:一种融合原子化化学知识的化学推理LLM
X-Omni:强化学习让离散自回归图像生成模型重放光彩
HunyuanWorld 1.0:从文本或像素生成沉浸式、可探索且可交互的3D世界
AlphaEarth Foundations:一种基于稀疏标签数据的准确高效全球地图构建嵌入场模型
基于可解释深度学习模型的长时序ENSO预测
OmniArch:面向科学计算的基础模型构建
UI-AGILE:通过有效的强化学习和精确的推理期对齐推进GUI代理
DualSG:一种双流显式语义引导的多变量时间序列预测框架
当 Tokens 讲得太多:跨图像、视频和音频的多模态长上下文 Tokens 压缩综述
SmallThinker:一个为本地部署原生训练的高效大型语言模型家族
重建4D空间智能:一项综述