Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

DrawingSpinUp:从单个角色绘图中生成3D动画

面向语音识别错误分析的音素导向词错误对齐(用于机器翻译)

ReaderLM-v2:面向 HTML 转 Markdown 和 JSON 的小型语言模型






























DrawingSpinUp:从单个角色绘图中生成3D动画

面向语音识别错误分析的音素导向词错误对齐(用于机器翻译)

ReaderLM-v2:面向 HTML 转 Markdown 和 JSON 的小型语言模型





























面向故障运行汽车平台的部署计算与分析
MegActor:利用原始视频的强大力量实现生动的肖像动画
Flash-VStream:基于记忆的长视频流实时理解
PhotoMaker:通过堆叠ID嵌入定制逼真人物照片
StoryDiffusion:用于长程图像和视频生成的一致性自注意力
基于质量估计与纠正反馈的切罗基语-英语机器翻译演示系统
具有非弹性需求和视在功率约束的需求响应在线算法
ESPnet-SDS:面向语音对话系统的统一工具包与演示平台
Jais和Jais-chat:以阿拉伯语为中心的基础指令微调开放生成大型语言模型
用于无监督机器翻译的快速回译
面向基于电子健康记录(EHR)临床研究的开放自然语言处理(NLP)框架:基于国家COVID队列协作(N3C)的案例演示
基于扩散模型的音频修复
全景一键分割:应用于农业数据
Hunyuan-Large:腾讯开源的拥有520亿激活参数的MoE模型
SketchAgent:语言驱动的连续草图生成
量子场规范理论范式下聚合酶链式反应的水桥动力学
微软学术自动文档搜索:期刊文章的准确性及引文分析的适用性
OSS PESTO:一个开源软件项目评估与选择工具
利用AlphaFold3和纯化序列进行状态感知蛋白质-配体复合物预测
小而显著:小型语言模型在可访问性AIED中的潜力
Google SynthID文本水印的鲁棒性评估与增强
CharacterGen:基于多视图姿态规范化的单图像高效3D角色生成
AnyText:多语言视觉文本生成与编辑
通过基于照片级真实感风格迁移的多参考方法实现老照片现代化
YOLOv11 解密:高性能目标检测实用指南
SGDFuse:用于高保真红外与可见光图像融合的SAM引导扩散模型
DeepSeek-Prover-V1.5:利用证明助手反馈进行强化学习与蒙特卡洛树搜索
面向故障运行汽车平台的部署计算与分析
MegActor:利用原始视频的强大力量实现生动的肖像动画
Flash-VStream:基于记忆的长视频流实时理解
PhotoMaker:通过堆叠ID嵌入定制逼真人物照片
StoryDiffusion:用于长程图像和视频生成的一致性自注意力
基于质量估计与纠正反馈的切罗基语-英语机器翻译演示系统
具有非弹性需求和视在功率约束的需求响应在线算法
ESPnet-SDS:面向语音对话系统的统一工具包与演示平台
Jais和Jais-chat:以阿拉伯语为中心的基础指令微调开放生成大型语言模型
用于无监督机器翻译的快速回译
面向基于电子健康记录(EHR)临床研究的开放自然语言处理(NLP)框架:基于国家COVID队列协作(N3C)的案例演示
基于扩散模型的音频修复
全景一键分割:应用于农业数据
Hunyuan-Large:腾讯开源的拥有520亿激活参数的MoE模型
SketchAgent:语言驱动的连续草图生成
量子场规范理论范式下聚合酶链式反应的水桥动力学
微软学术自动文档搜索:期刊文章的准确性及引文分析的适用性
OSS PESTO:一个开源软件项目评估与选择工具
利用AlphaFold3和纯化序列进行状态感知蛋白质-配体复合物预测
小而显著:小型语言模型在可访问性AIED中的潜力
Google SynthID文本水印的鲁棒性评估与增强
CharacterGen:基于多视图姿态规范化的单图像高效3D角色生成
AnyText:多语言视觉文本生成与编辑
通过基于照片级真实感风格迁移的多参考方法实现老照片现代化
YOLOv11 解密:高性能目标检测实用指南
SGDFuse:用于高保真红外与可见光图像融合的SAM引导扩散模型
DeepSeek-Prover-V1.5:利用证明助手反馈进行强化学习与蒙特卡洛树搜索