Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

语言模型的变分推理

EPO:面向LLM Agent的熵正则化策略优化 强化学习































语言模型的变分推理

EPO:面向LLM Agent的熵正则化策略优化 强化学习






























MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉-语言模型
分位数优势估计用于熵安全推理
LongLive:实时交互式长视频生成
组合式创造力:泛化能力的新前沿
因果时空预测:一种高效且有效的多模态方法
Hunyuan3D-Omni:一种用于可控生成3D资产的统一框架
Seedream 4.0:迈向下一代多模态图像生成
LLM Agent强化学习中的树搜索
SciReasoner:跨学科奠定科学推理基础
MMR1:通过方差感知采样与开放资源增强多模态推理
基于方差的课程强化学习用于大语言模型
MultiEdit:在多样且具有挑战性的任务上推进基于指令的图像编辑
BRISC:基于Swin-HAFNet的脑肿瘤分割与分类标注数据集
FDABench:面向异构数据上分析查询的数据Agent基准测试
作画易,思辨难:文本到图像模型能否铺就舞台,却无法主导演出?
UniVerse-1:通过专家拼接实现统一的音视频生成
基础模型在逐步具身推理中的表现如何?
脉冲脑技术报告:脉冲脑启发的大规模模型
SAGE:语义理解的现实基准
WAVECLIP:小波Token化用于自适应分辨率CLIP
EmbeddingGemma:强大且轻量的文本表示
通过GRPO提升语音感知语言模型中的语音理解能力
VLMs 距离视觉空间智能还有多远?一项基准驱动的视角
SIM-CoT:监督式隐式思维链
SWE-QA:语言模型能否回答仓库级代码问题?
视频模型是零样本学习者和推理者
用于机械工程分析问题关键求解的N-Plus-1 GPT Agent
Memory-QA:基于多模态记忆的回忆问答
MAPO:混合优势策略优化
Hyper-Bagel:一种用于多模态理解与生成的统一加速框架
MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉-语言模型
分位数优势估计用于熵安全推理
LongLive:实时交互式长视频生成
组合式创造力:泛化能力的新前沿
因果时空预测:一种高效且有效的多模态方法
Hunyuan3D-Omni:一种用于可控生成3D资产的统一框架
Seedream 4.0:迈向下一代多模态图像生成
LLM Agent强化学习中的树搜索
SciReasoner:跨学科奠定科学推理基础
MMR1:通过方差感知采样与开放资源增强多模态推理
基于方差的课程强化学习用于大语言模型
MultiEdit:在多样且具有挑战性的任务上推进基于指令的图像编辑
BRISC:基于Swin-HAFNet的脑肿瘤分割与分类标注数据集
FDABench:面向异构数据上分析查询的数据Agent基准测试
作画易,思辨难:文本到图像模型能否铺就舞台,却无法主导演出?
UniVerse-1:通过专家拼接实现统一的音视频生成
基础模型在逐步具身推理中的表现如何?
脉冲脑技术报告:脉冲脑启发的大规模模型
SAGE:语义理解的现实基准
WAVECLIP:小波Token化用于自适应分辨率CLIP
EmbeddingGemma:强大且轻量的文本表示
通过GRPO提升语音感知语言模型中的语音理解能力
VLMs 距离视觉空间智能还有多远?一项基准驱动的视角
SIM-CoT:监督式隐式思维链
SWE-QA:语言模型能否回答仓库级代码问题?
视频模型是零样本学习者和推理者
用于机械工程分析问题关键求解的N-Plus-1 GPT Agent
Memory-QA:基于多模态记忆的回忆问答
MAPO:混合优势策略优化
Hyper-Bagel:一种用于多模态理解与生成的统一加速框架