Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

视频对象与交互删除

VoxCPM:面向上下文感知语音生成与高保真声音克隆的 Tokenizer-Free TTS































视频对象与交互删除

VoxCPM:面向上下文感知语音生成与高保真声音克隆的 Tokenizer-Free TTS






























OmniVoice: 迈向基于 Diffusion Language Models 的全语种 Zero-Shot Text-to-Speech 研究
视觉如何转化为文本:定位 Vision-Language Models 中的 OCR Routing 瓶颈
OCR 还是非 OCR?在 MLLMs 时代利用真实世界大规模数据集重新思考文档信息抽取
dnaHNet:一种用于基因组序列学习的可扩展分层 Foundation Model
神经计算机
ASGuard:通过 Activation-Scaling 机制缓解针对性 Jailbreaking Attack 的防护方法
GlobalSplat: 通过 Global Scene Tokens 实现高效的 Feed-Forward 3D Gaussian Splatting
如何 Fine-Tune 推理模型?一种用于合成 Student-Consistent SFT 数据的高师生协作框架
RAD-2:在生成器-判别器框架下扩展 Reinforcement Learning
DR3-Eval:迈向真实且可复现的深度研究评估
HY-World 2.0:一种用于重建、生成与模拟 3D 世界的多模态 World Model
pi0.7:一种具有涌现能力的、可控的通用机器人 Foundation Model
GTR:引导式思维强化通过防止 RL 基础的 VLM Agent 训练中的思维崩溃(Thought Collapse)来提升性能
Large Language Models 的 Agent Skills:架构、获取、安全与未来路径
空间理论:Foundation Models 能否通过主动探索构建空间信念?
记忆迁移学习:Memory 在 Coding Agents 中是如何跨领域迁移的
OccuBench: 通过 Language World Models 在真实世界专业任务上评估 AI Agents
SpatialEvo:通过确定性几何环境实现自我演化的空间智能
RationalRewards:通过推理 Rewards 在训练与测试阶段共同提升视觉生成的 Scale
Seedance 2.0:提升应对世界复杂性的 Video Generation 能力
GameWorld:迈向多模态 Game Agents 标准化与可验证性的评估研究
通过 ScaleFormer 实现跨尺度 Pansharpening 以及 PanScale 基准测试
ParseBench:面向 AI Agents 的文档解析基准测试
存储智能 Agent
PROPELLA-1:面向大规模 LLM 数据策展的多属性文档标注
长上下文视觉文档理解中的内化推理机制
TurboQuant:具有近乎最优失真率的在线 Vector Quantization 方法
BERT-as-a-Judge:一种高效、稳健的参考式大语言模型评估方法,可替代传统词汇法
SPPO:用于长程推理任务的序列级PPO方法
屏幕上的图灵测试:移动端GUI智能体人性化评测基准
OmniVoice: 迈向基于 Diffusion Language Models 的全语种 Zero-Shot Text-to-Speech 研究
视觉如何转化为文本:定位 Vision-Language Models 中的 OCR Routing 瓶颈
OCR 还是非 OCR?在 MLLMs 时代利用真实世界大规模数据集重新思考文档信息抽取
dnaHNet:一种用于基因组序列学习的可扩展分层 Foundation Model
神经计算机
ASGuard:通过 Activation-Scaling 机制缓解针对性 Jailbreaking Attack 的防护方法
GlobalSplat: 通过 Global Scene Tokens 实现高效的 Feed-Forward 3D Gaussian Splatting
如何 Fine-Tune 推理模型?一种用于合成 Student-Consistent SFT 数据的高师生协作框架
RAD-2:在生成器-判别器框架下扩展 Reinforcement Learning
DR3-Eval:迈向真实且可复现的深度研究评估
HY-World 2.0:一种用于重建、生成与模拟 3D 世界的多模态 World Model
pi0.7:一种具有涌现能力的、可控的通用机器人 Foundation Model
GTR:引导式思维强化通过防止 RL 基础的 VLM Agent 训练中的思维崩溃(Thought Collapse)来提升性能
Large Language Models 的 Agent Skills:架构、获取、安全与未来路径
空间理论:Foundation Models 能否通过主动探索构建空间信念?
记忆迁移学习:Memory 在 Coding Agents 中是如何跨领域迁移的
OccuBench: 通过 Language World Models 在真实世界专业任务上评估 AI Agents
SpatialEvo:通过确定性几何环境实现自我演化的空间智能
RationalRewards:通过推理 Rewards 在训练与测试阶段共同提升视觉生成的 Scale
Seedance 2.0:提升应对世界复杂性的 Video Generation 能力
GameWorld:迈向多模态 Game Agents 标准化与可验证性的评估研究
通过 ScaleFormer 实现跨尺度 Pansharpening 以及 PanScale 基准测试
ParseBench:面向 AI Agents 的文档解析基准测试
存储智能 Agent
PROPELLA-1:面向大规模 LLM 数据策展的多属性文档标注
长上下文视觉文档理解中的内化推理机制
TurboQuant:具有近乎最优失真率的在线 Vector Quantization 方法
BERT-as-a-Judge:一种高效、稳健的参考式大语言模型评估方法,可替代传统词汇法
SPPO:用于长程推理任务的序列级PPO方法
屏幕上的图灵测试:移动端GUI智能体人性化评测基准