Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

弥合语义与运动学条件:基于 Diffusion 的离散运动 Tokenizer

FASTER:重新思考实时流式视觉语言动作模型































弥合语义与运动学条件:基于 Diffusion 的离散运动 Tokenizer

FASTER:重新思考实时流式视觉语言动作模型






























3DreamBooth:高保真度以主体为中心的 3D 视频生成模型
SAMA:面向指令驱动视频编辑的因子化语义锚定与运动对齐
生成模型感知空间:释放隐式3D先验以增强场景理解
高效推理与平衡思维
行动前审视:增强面向视觉 - 语言 - 动作模型的视觉基础表征
互补强化学习
对齐使语言模型具备规范性,而非描述性。
MosaicMem:用于可控视频世界模型的混合空间记忆机制
MetaClaw:仅需对话——一种在开放环境中进行元学习并持续演化的 Agent
Video-CoE:通过事件链增强视频事件预测
FunCineForge:面向多样化电影场景的零样本电影配音统一数据集工具包与模型
面向 Large Language Models 的 In-Context Watermarks
WorldCam:以相机姿态为统一几何表示的交互式自回归3D游戏世界
揭秘视频推理
Kinema4D:面向时空具身模拟的运动学四维世界建模
Qianfan-OCR:一种面向文档智能的统一端到端模型
InCoder-32B:面向工业场景的代码基础模型
MiroThinker-1.7 与 H1:迈向基于验证的重型研究 Agent
HSImul3R:物理在环的人机场景交互重建,生成仿真就绪数据
深度混合注意力
注意力残差
将世界模拟模型锚定于真实世界大都市
OpenSeeker:通过完全开源训练数据,推动前沿搜索 Agent 的民主化
人工智能能够习得科学品味
MM-CondChain:用于视觉推理的深度组合能力程序化验证基准
视觉 - 语言模型能否破解“三仙归洞”难题?
OmniForcing:释放实时音视频联合生成能力
daVinci-Env:大规模开源软件工程环境合成
Cheers:解耦图像块细节与语义表示,实现统一的多模态理解与生成
LMEB:长程记忆嵌入基准测试
3DreamBooth:高保真度以主体为中心的 3D 视频生成模型
SAMA:面向指令驱动视频编辑的因子化语义锚定与运动对齐
生成模型感知空间:释放隐式3D先验以增强场景理解
高效推理与平衡思维
行动前审视:增强面向视觉 - 语言 - 动作模型的视觉基础表征
互补强化学习
对齐使语言模型具备规范性,而非描述性。
MosaicMem:用于可控视频世界模型的混合空间记忆机制
MetaClaw:仅需对话——一种在开放环境中进行元学习并持续演化的 Agent
Video-CoE:通过事件链增强视频事件预测
FunCineForge:面向多样化电影场景的零样本电影配音统一数据集工具包与模型
面向 Large Language Models 的 In-Context Watermarks
WorldCam:以相机姿态为统一几何表示的交互式自回归3D游戏世界
揭秘视频推理
Kinema4D:面向时空具身模拟的运动学四维世界建模
Qianfan-OCR:一种面向文档智能的统一端到端模型
InCoder-32B:面向工业场景的代码基础模型
MiroThinker-1.7 与 H1:迈向基于验证的重型研究 Agent
HSImul3R:物理在环的人机场景交互重建,生成仿真就绪数据
深度混合注意力
注意力残差
将世界模拟模型锚定于真实世界大都市
OpenSeeker:通过完全开源训练数据,推动前沿搜索 Agent 的民主化
人工智能能够习得科学品味
MM-CondChain:用于视觉推理的深度组合能力程序化验证基准
视觉 - 语言模型能否破解“三仙归洞”难题?
OmniForcing:释放实时音视频联合生成能力
daVinci-Env:大规模开源软件工程环境合成
Cheers:解耦图像块细节与语义表示,实现统一的多模态理解与生成
LMEB:长程记忆嵌入基准测试