Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

循环深度视觉-语言-动作模型:通过潜在迭代推理实现视觉-语言-动作模型的隐式测试时计算扩展

QuantaAlpha:一种面向LLM驱动的Alpha挖掘的进化框架































循环深度视觉-语言-动作模型:通过潜在迭代推理实现视觉-语言-动作模型的隐式测试时计算扩展

QuantaAlpha:一种面向LLM驱动的Alpha挖掘的进化框架






























模态间隙驱动的子空间对齐训练范式用于多模态大语言模型
MOVA:迈向可扩展且同步的视频-音频生成
MemoryLLM:即插即用的可解释前馈记忆机制用于Transformer
DreamDojo:基于大规模人类视频的通用机器人世界模型
F-GRPO:别让你的策略学习到显而易见的内容却遗忘稀有情况
MSign:通过稳定秩恢复防止大语言模型训练不稳定的优化器
AudioSAE:基于稀疏自编码器的音频处理模型理解
大型语言模型强化微调中的熵动态研究
OdysseyArena:面向长时程、主动式与归纳性交互的大型语言模型基准测试
百川-M3:面向可靠医疗决策的临床问诊建模
通过漂移进行生成建模
AlphaEdit:针对语言模型的零空间约束知识编辑
在13个参数中进行推理学习
DFlash:用于快速推测解码的块扩散方法
上下文强制:基于长上下文的一致性自回归视频生成
MemSkill:面向自演化智能体的内存技能学习与演化
长度无偏序列策略优化:揭示与控制RLVR中的响应长度变异
Spider-Sense:基于分层自适应筛选的高效Agent防御内在风险感知
CAR-bench:在现实世界不确定性下评估LLM Agent的一致性与限知性
基于延迟流建模的流式 Sequence-to-Sequence 学习
Kiss3DGen:将图像 Diffusion Models 重新用于 3D Asset 生成
基于 Cache 的推理与有状态 Conformer:面向流式自动语音识别的研究
用于 3D 生成的原生且紧凑的结构化 Latents
连续音频语言模型
在虚拟临床环境中演进交互式诊断 Agent
WeDLM:弥合扩散语言模型与标准因果注意力机制以实现快速推理
TurboDiffusion:通过100-200倍加速视频Diffusion模型
HunyuanVideo-Foley:基于表示对齐的多模态扩散模型用于高保真Foley音频生成
Fara-7B:一种用于计算机使用的高效Agent模型
Fun-ASR 技术报告
模态间隙驱动的子空间对齐训练范式用于多模态大语言模型
MOVA:迈向可扩展且同步的视频-音频生成
MemoryLLM:即插即用的可解释前馈记忆机制用于Transformer
DreamDojo:基于大规模人类视频的通用机器人世界模型
F-GRPO:别让你的策略学习到显而易见的内容却遗忘稀有情况
MSign:通过稳定秩恢复防止大语言模型训练不稳定的优化器
AudioSAE:基于稀疏自编码器的音频处理模型理解
大型语言模型强化微调中的熵动态研究
OdysseyArena:面向长时程、主动式与归纳性交互的大型语言模型基准测试
百川-M3:面向可靠医疗决策的临床问诊建模
通过漂移进行生成建模
AlphaEdit:针对语言模型的零空间约束知识编辑
在13个参数中进行推理学习
DFlash:用于快速推测解码的块扩散方法
上下文强制:基于长上下文的一致性自回归视频生成
MemSkill:面向自演化智能体的内存技能学习与演化
长度无偏序列策略优化:揭示与控制RLVR中的响应长度变异
Spider-Sense:基于分层自适应筛选的高效Agent防御内在风险感知
CAR-bench:在现实世界不确定性下评估LLM Agent的一致性与限知性
基于延迟流建模的流式 Sequence-to-Sequence 学习
Kiss3DGen:将图像 Diffusion Models 重新用于 3D Asset 生成
基于 Cache 的推理与有状态 Conformer:面向流式自动语音识别的研究
用于 3D 生成的原生且紧凑的结构化 Latents
连续音频语言模型
在虚拟临床环境中演进交互式诊断 Agent
WeDLM:弥合扩散语言模型与标准因果注意力机制以实现快速推理
TurboDiffusion:通过100-200倍加速视频Diffusion模型
HunyuanVideo-Foley:基于表示对齐的多模态扩散模型用于高保真Foley音频生成
Fara-7B:一种用于计算机使用的高效Agent模型
Fun-ASR 技术报告