Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

Extract-0:用于文档信息提取的专用语言模型

OmniRetarget:面向人形机器人全身运动与操作及场景交互的交互保持型数据生成































Extract-0:用于文档信息提取的专用语言模型

OmniRetarget:面向人形机器人全身运动与操作及场景交互的交互保持型数据生成






























WildSpeech-Bench:在真实场景中对端到端SpeechLLM进行基准测试
针对大型语言模型对齐的内部激活值的Token感知编辑
旨在学习:面向低资源视觉-语言建模的Token级动态门控
通过早期经验进行Agent学习
MATRIX:用于交互感知视频生成的掩码轨迹对齐
RLinf-VLA:一种统一且高效的VLA+RL训练框架
SHANKS:用于语音语言模型的同步听与思
Lumina-DiMOO:一种用于多模态生成与理解的全模态扩散大型语言模型
缓存到缓存:大型语言模型之间的直接语义通信
Ming-UniVision:基于统一连续Tokenizer的联合图像理解与生成
Phi-3 技术报告:一款可在您的手机上本地运行的高性能语言模型
Qwen2.5 技术报告
通过引入深度研究增强AlphaEvolve实现科学算法发现
ConstraintLLM:一种面向工业级约束编程的神经符号框架
代码辅助思维链与指令的扩展用于模型推理
CoDA:通过扩散适应进行编码LM
Fast-dLLM v2:高效块扩散LLM
少即是多:使用小型网络进行递归推理
Fathom-DeepResearch:解锁长时程信息检索与综合以赋能SLMs
TaTToo:面向表格推理中测试时扩展的工具基础思维PRM
语言模型的混合架构:系统性分析与设计洞察
MITS:通过点互信息增强LLM的树搜索推理
对大型语言模型的不可察觉的越狱攻击
VChain:用于视频生成推理的视觉思维链
视频-LMM后训练:基于大型多模态模型的视频推理深度探究
Paper2Video:从科学论文自动生成视频
微缩扩展FP4量化中的承诺与性能之间的差距
多模态大语言模型中的自提升:一项综述
通过测试时分布级组合改进基于扩散或基于流的机器人策略
大型推理模型从有缺陷的思维中学习到更好的对齐
WildSpeech-Bench:在真实场景中对端到端SpeechLLM进行基准测试
针对大型语言模型对齐的内部激活值的Token感知编辑
旨在学习:面向低资源视觉-语言建模的Token级动态门控
通过早期经验进行Agent学习
MATRIX:用于交互感知视频生成的掩码轨迹对齐
RLinf-VLA:一种统一且高效的VLA+RL训练框架
SHANKS:用于语音语言模型的同步听与思
Lumina-DiMOO:一种用于多模态生成与理解的全模态扩散大型语言模型
缓存到缓存:大型语言模型之间的直接语义通信
Ming-UniVision:基于统一连续Tokenizer的联合图像理解与生成
Phi-3 技术报告:一款可在您的手机上本地运行的高性能语言模型
Qwen2.5 技术报告
通过引入深度研究增强AlphaEvolve实现科学算法发现
ConstraintLLM:一种面向工业级约束编程的神经符号框架
代码辅助思维链与指令的扩展用于模型推理
CoDA:通过扩散适应进行编码LM
Fast-dLLM v2:高效块扩散LLM
少即是多:使用小型网络进行递归推理
Fathom-DeepResearch:解锁长时程信息检索与综合以赋能SLMs
TaTToo:面向表格推理中测试时扩展的工具基础思维PRM
语言模型的混合架构:系统性分析与设计洞察
MITS:通过点互信息增强LLM的树搜索推理
对大型语言模型的不可察觉的越狱攻击
VChain:用于视频生成推理的视觉思维链
视频-LMM后训练:基于大型多模态模型的视频推理深度探究
Paper2Video:从科学论文自动生成视频
微缩扩展FP4量化中的承诺与性能之间的差距
多模态大语言模型中的自提升:一项综述
通过测试时分布级组合改进基于扩散或基于流的机器人策略
大型推理模型从有缺陷的思维中学习到更好的对齐