Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

Agentic上下文工程:面向自提升语言模型的上下文演化

DiaMoE-TTS:一种基于IPA的统一方言TTS框架,支持多专家模型与参数高效零样本适配































Agentic上下文工程:面向自提升语言模型的上下文演化

DiaMoE-TTS:一种基于IPA的统一方言TTS框架,支持多专家模型与参数高效零样本适配






























AI辅助的AR装配:用于增强现实辅助装配的物体识别与计算机视觉
在针堆中越狱
CritiCal:批判性反馈能否帮助LLM不确定性或置信度校准?
通过优化文本嵌入缓解大型视觉-语言模型中的幻觉问题
视觉空间调谐
好到不像反派:论LLMs在扮演反派角色时的失败
DeepEyesV2:迈向代理型多模态模型
基于机器学习的连续血糖监测用于识别代谢亚表型并指导精准生活方式干预
在测试阶段重用预训练数据是一种计算倍增器
NVIDIA Nemotron Nano V2 VL
CostBench:评估LLM工具使用Agent在动态环境中多轮成本最优规划与适应性
寒武纪-S:迈向视频中的空间超感知
通过经验合成实现Agent学习的扩展
V-Thinker:与图像交互的思考
基于视频的思考:视频生成作为一种有前景的多模态推理范式
Amber生物分子模拟的最新进展
UltraHR-100K:基于大规模高质量数据集增强UHR图像合成
从五个维度到众多维度:大型语言模型作为精准且可解释的心理画像工具
基于节点的多模态生成:文本、音频、图像与视频
DR. WELL:基于符号世界模型的具身LLM多Agent协作中的动态推理与学习
Orion-MSP:用于表格上下文学习的多尺度稀疏注意力
TabTune:用于表格基础模型推理与微调的统一库
Step-Audio-EditX 技术报告
LEGO-Eval:面向通过工具增强合成3D具身环境的细粒度评估
UniAVGen:具有非对称跨模态交互的统一音频与视频生成
扩散语言模型是超数据学习者
UNO-Bench:一个用于探索Omni模型中单模态与全模态之间组合规律的统一基准
基于扩散模型的动态人口分布感知人类轨迹生成
基于3D生成式AI与视觉语言模型的文本到机器人多组件物体装配
Kosmos:用于自主发现的AI Scientist
AI辅助的AR装配:用于增强现实辅助装配的物体识别与计算机视觉
在针堆中越狱
CritiCal:批判性反馈能否帮助LLM不确定性或置信度校准?
通过优化文本嵌入缓解大型视觉-语言模型中的幻觉问题
视觉空间调谐
好到不像反派:论LLMs在扮演反派角色时的失败
DeepEyesV2:迈向代理型多模态模型
基于机器学习的连续血糖监测用于识别代谢亚表型并指导精准生活方式干预
在测试阶段重用预训练数据是一种计算倍增器
NVIDIA Nemotron Nano V2 VL
CostBench:评估LLM工具使用Agent在动态环境中多轮成本最优规划与适应性
寒武纪-S:迈向视频中的空间超感知
通过经验合成实现Agent学习的扩展
V-Thinker:与图像交互的思考
基于视频的思考:视频生成作为一种有前景的多模态推理范式
Amber生物分子模拟的最新进展
UltraHR-100K:基于大规模高质量数据集增强UHR图像合成
从五个维度到众多维度:大型语言模型作为精准且可解释的心理画像工具
基于节点的多模态生成:文本、音频、图像与视频
DR. WELL:基于符号世界模型的具身LLM多Agent协作中的动态推理与学习
Orion-MSP:用于表格上下文学习的多尺度稀疏注意力
TabTune:用于表格基础模型推理与微调的统一库
Step-Audio-EditX 技术报告
LEGO-Eval:面向通过工具增强合成3D具身环境的细粒度评估
UniAVGen:具有非对称跨模态交互的统一音频与视频生成
扩散语言模型是超数据学习者
UNO-Bench:一个用于探索Omni模型中单模态与全模态之间组合规律的统一基准
基于扩散模型的动态人口分布感知人类轨迹生成
基于3D生成式AI与视觉语言模型的文本到机器人多组件物体装配
Kosmos:用于自主发现的AI Scientist