Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

Yume-1.5:一种文本控制的交互式世界生成模型

LiveTalk:通过改进的自洽蒸馏实现实时多模态交互式视频扩散































Yume-1.5:一种文本控制的交互式世界生成模型

LiveTalk:通过改进的自洽蒸馏实现实时多模态交互式视频扩散






























通过辅助损失实现专家与路由器在专家混合模型中的耦合
LongFly:基于时空上下文融合的长时程无人机视觉-语言导航
注意力并非你所需要的
SlideTailor:面向科学论文的个性化演示文稿生成
InSight-o3:通过泛化视觉搜索赋能多模态基础模型
InsertAnywhere:连接4D场景几何与扩散模型以实现逼真的视频物体插入
面向心智地图感知的检索增强生成以提升长上下文理解
衡量大语言模型中短文本的真实性
DeepSearchQA:弥合深度研究Agent的全面性差距
MEM1:学习协同记忆与推理以实现高效长时程Agent
AI-Trader:在实时金融市场的自主Agent基准测试
潜在隐式视觉推理
LLM人格作为方法基准测试中实地实验的替代方案
DataFlow:一种面向以数据为中心的人工智能时代的统一数据准备与工作流自动化框架
HiStream:通过冗余消除流式传输实现高效高分辨率视频生成
TokSuite:衡量分词器选择对语言模型行为的影响
Nemotron 3 Nano:面向智能体推理的开源、高效混合专家Mamba-Transformer模型
超越记忆:一种多模态序数回归基准以揭示视觉-语言模型中的流行度偏差
DreaMontage:任意帧引导的单次视频生成
T2AV-Compass:面向文本到音频视频生成的统一评估
TongSIM:一种用于模拟智能机器的通用平台
Qwen-Image-Layered:通过层分解实现固有可编辑性
RoboSafe:通过可执行安全逻辑保障具身Agent的安全
NHS基层医疗中LLM药物安全审查的现实世界评估
多LLM主题分析结合双重可靠性度量:基于Cohen's Kappa与语义相似性的定性研究验证
通过闭环世界建模实现视频虚拟人中的主动智能
FaithLens:检测与解释忠实性幻觉
SAM Audio:音频中的任意分割
Step-DeepResearch 技术报告
SpatialTree:空间能力在MLLMs中的分支发展
通过辅助损失实现专家与路由器在专家混合模型中的耦合
LongFly:基于时空上下文融合的长时程无人机视觉-语言导航
注意力并非你所需要的
SlideTailor:面向科学论文的个性化演示文稿生成
InSight-o3:通过泛化视觉搜索赋能多模态基础模型
InsertAnywhere:连接4D场景几何与扩散模型以实现逼真的视频物体插入
面向心智地图感知的检索增强生成以提升长上下文理解
衡量大语言模型中短文本的真实性
DeepSearchQA:弥合深度研究Agent的全面性差距
MEM1:学习协同记忆与推理以实现高效长时程Agent
AI-Trader:在实时金融市场的自主Agent基准测试
潜在隐式视觉推理
LLM人格作为方法基准测试中实地实验的替代方案
DataFlow:一种面向以数据为中心的人工智能时代的统一数据准备与工作流自动化框架
HiStream:通过冗余消除流式传输实现高效高分辨率视频生成
TokSuite:衡量分词器选择对语言模型行为的影响
Nemotron 3 Nano:面向智能体推理的开源、高效混合专家Mamba-Transformer模型
超越记忆:一种多模态序数回归基准以揭示视觉-语言模型中的流行度偏差
DreaMontage:任意帧引导的单次视频生成
T2AV-Compass:面向文本到音频视频生成的统一评估
TongSIM:一种用于模拟智能机器的通用平台
Qwen-Image-Layered:通过层分解实现固有可编辑性
RoboSafe:通过可执行安全逻辑保障具身Agent的安全
NHS基层医疗中LLM药物安全审查的现实世界评估
多LLM主题分析结合双重可靠性度量:基于Cohen's Kappa与语义相似性的定性研究验证
通过闭环世界建模实现视频虚拟人中的主动智能
FaithLens:检测与解释忠实性幻觉
SAM Audio:音频中的任意分割
Step-DeepResearch 技术报告
SpatialTree:空间能力在MLLMs中的分支发展