Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

Audio-Omni: 将多模态理解扩展至多功能的 Audio 生成与编辑

重新思考大语言模型的在线策略蒸馏:现象、机制与方法配方































Audio-Omni: 将多模态理解扩展至多功能的 Audio 生成与编辑

重新思考大语言模型的在线策略蒸馏:现象、机制与方法配方






























KnowRL: 通过最小充分知识引导的强化学习提升大语言模型推理能力
Uni-ViGU:基于扩散式视频生成器的统一视频生成与理解方法
ClawGUI:用于训练、评测与部署GUI智能体的统一框架
Transformers 中的 Attention Sink:关于其利用、解释与缓解的研究综述
OmniShow: 统一用于 Human-Object Interaction 视频生成的 Multimodal Conditions
往事并非过往:基于 Memory 增强的 Dynamic Reward Shaping
QuanBench+: 一个用于 LLM-Based 量子代码生成的统一多框架 benchmark
用于视觉生成的 Elastic Looped Transformers
ECHO: 基于 One-step Block Diffusion 的高效胸部 X 线报告生成
Matrix-Game 3.0:具有长时程 Memory 的实时流式交互式 World Model
EXAONE 4.5 技术报告
RefineAnything: 用于完美局部细节的多模态区域特定 Refinement
FORGE:面向制造场景的细粒度 Multimodal Evaluation
WildDet3D: 在野外环境下扩展 Promptable 3D Detection
Autoreason: 知晓何时停止的自我修正机制
ActiveGlasses: 通过主动视觉从自我中心视角人类演示中学习操纵技能
MegaStyle:通过一致性 Text-to-Image Style Mapping 构建多样化且可扩展的 Style Dataset
当数字开口说话:在 Text-to-Video Diffusion Models 中对齐文本数字与视觉实例
HY-Embodied-0.5:面向真实世界 Agent 的 Embodied Foundation Models
ClawBench:AI Agent 能否完成日常在线任务?
重新审视推理 SFT 中的泛化问题:基于优化、数据与模型能力的条件分析
SkillClaw:通过 Agentic Evolver 实现技能的集体进化
MDPBench:面向真实场景的多语言文档解析基准测试
TC-AE:解锁深度压缩 Autoencoders 的 Token 容量
INSPATIO-WORLD:一种基于时空 Autoregressive Modeling 的实时 4D 世界 Simulator
FlowInOne: 将多模态生成统一为“图像输入、图像输出”的 Flow Matching
MARS:赋能 Autoregressive Models 的 Multi-Token Generation
以笔触而非像素进行思考:通过交织推理实现的流程驱动型图像生成
RAGEN-2:Agentic RL 中的推理崩溃
Vanast: 通过合成三元组监督实现基于人体图像动画的虚拟试穿
KnowRL: 通过最小充分知识引导的强化学习提升大语言模型推理能力
Uni-ViGU:基于扩散式视频生成器的统一视频生成与理解方法
ClawGUI:用于训练、评测与部署GUI智能体的统一框架
Transformers 中的 Attention Sink:关于其利用、解释与缓解的研究综述
OmniShow: 统一用于 Human-Object Interaction 视频生成的 Multimodal Conditions
往事并非过往:基于 Memory 增强的 Dynamic Reward Shaping
QuanBench+: 一个用于 LLM-Based 量子代码生成的统一多框架 benchmark
用于视觉生成的 Elastic Looped Transformers
ECHO: 基于 One-step Block Diffusion 的高效胸部 X 线报告生成
Matrix-Game 3.0:具有长时程 Memory 的实时流式交互式 World Model
EXAONE 4.5 技术报告
RefineAnything: 用于完美局部细节的多模态区域特定 Refinement
FORGE:面向制造场景的细粒度 Multimodal Evaluation
WildDet3D: 在野外环境下扩展 Promptable 3D Detection
Autoreason: 知晓何时停止的自我修正机制
ActiveGlasses: 通过主动视觉从自我中心视角人类演示中学习操纵技能
MegaStyle:通过一致性 Text-to-Image Style Mapping 构建多样化且可扩展的 Style Dataset
当数字开口说话:在 Text-to-Video Diffusion Models 中对齐文本数字与视觉实例
HY-Embodied-0.5:面向真实世界 Agent 的 Embodied Foundation Models
ClawBench:AI Agent 能否完成日常在线任务?
重新审视推理 SFT 中的泛化问题:基于优化、数据与模型能力的条件分析
SkillClaw:通过 Agentic Evolver 实现技能的集体进化
MDPBench:面向真实场景的多语言文档解析基准测试
TC-AE:解锁深度压缩 Autoencoders 的 Token 容量
INSPATIO-WORLD:一种基于时空 Autoregressive Modeling 的实时 4D 世界 Simulator
FlowInOne: 将多模态生成统一为“图像输入、图像输出”的 Flow Matching
MARS:赋能 Autoregressive Models 的 Multi-Token Generation
以笔触而非像素进行思考:通过交织推理实现的流程驱动型图像生成
RAGEN-2:Agentic RL 中的推理崩溃
Vanast: 通过合成三元组监督实现基于人体图像动画的虚拟试穿