Command Palette

Search for a command to run...

实现精细特征化 TCR 序列!深度学习框架 DeepTCR 拓展免疫学研究手段;5w 条肺癌患者数据背书!Lung Cancer Risk 详解肺癌风险因素

Featured Image

T 细胞受体测序(TCR-Seq)是下一代测序技术(Next-Generation Sequencing, NGS)的一种重要应用,使研究人员能够系统表征适应性免疫反应的多样性。在解析 T 细胞受体测序数据时,传统方法(如基序搜索或序列比对)在取得成果的同时,也逐渐暴露出其局限性——在识别体内低频率的抗原特异性 T 细胞反应时,其信号常被大量非特异性 T 细胞背景淹没,反映出传统方法从噪声中识别信号方面存在挑战。

随着对 TCR 序列进行更精细特征化的需求不断增长,研究者关注到以卷积神经网络(CNN)为代表的深度学习技术。正是在这一背景下,DeepTCR 作为一种基于深度学习的免疫受体测序分析框架应运而生。该框架可以从 TCR 测序的免疫组库数据中学习 CDR3 序列、 V/D/J 基因使用情况以及 MHC 分子类型特点,并构建联合表示来建模高度复杂的 TCR 测序数据。

DeepTCR 将深度学习框架系统性地应用于 TCR 序列分析,不仅拓展了免疫学研究的分析手段,也进一步表明深度学习技术在不同领域的广泛应用。

目前,HyperAI 超神经官网已上线了「DeepTCR:深度学习预测 TCR-肽亲和力」,快来试试吧~

在线使用:https://go.hyper.ai/gKmgi

9 月 8 日-9 月 12 日,hyper.ai 官网更新速览:

*  优质公共数据集:10 个

* 优质教程精选:2 个

*  本周论文推荐:  5 篇

* 社区文章解读:5 篇

* 热门百科词条:5 条

* 9 月截稿顶会:5 个

访问官网:hyper.ai

公共数据集精选

1. New Plant Diseases 植物病害图像数据集

New Plant Diseases 是一个面向植物病害识别与叶片分类研究的图像数据集,涵盖健康叶片与多种病害类型,广泛适用于开发与评估机器学习与深度学习模型,特别是在农作物健康监控、病害识别、精准农业模型与学术研究中,具有重要的基准价值。

直接使用:https://go.hyper.ai/RKYtW

数据集示例

2. Intel Image Classification 自然场景图像分类数据集

Intel Image Classification 是由英特尔发布的一个图像分类数据集,旨在对自然与人造场景图像进行分类。该数据集共包含约 25,000 张彩色图像,分布在建筑、森林等 6 个类别中。

直接使用:https://go.hyper.ai/qgbeX

数据集示例

3. LongPage 长篇小说推理数据集

LongPage 是首个用于训练人工智能模型撰写具备复杂推理能力的完整长篇小说的综合性数据集,支持冷启动监督微调到强化学习训练流程,适用于训练具备层级推理能力的大规模语言模型和提升长篇创作连贯性与规划性。

直接使用:https://go.hyper.ai/odoKA

4. Lung Cancer Risk 肺癌风险数据集

Lung Cancer Risk 是一个面向肺癌风险预测与健康因素分析的表格型数据集,旨在通过多维特征探索吸烟习惯、生活方式与肺癌风险之间的关联,适用于肺癌风险建模、医学机器学习研究、健康预测系统开发与教学实验,尤其在分类建模和风险评估场景中具有良好的参考价值。

直接使用:https://go.hyper.ai/YGFzG

5. IFEval-Inverse 逆向指令评测数据集

IFEval-Inverse 是由 ByteDance Seed 联合南京大学、清华大学等机构发布的一个面向大语言模型的对抗性指令评测数据集,旨在检验模型在面对逆向或反常指令时能否打破训练惯性,实现真正的指令遵循。

直接使用:https://go.hyper.ai/IcTqj

6. FinReflectKG 金融知识图谱数据集

FinReflectKG 是一个面向金融领域的大规模知识图谱数据集,旨在从企业监管文件中提取结构化语义关系,推动金融领域知识图谱研究的发展,适用于金融领域的实体识别、关系抽取、知识图谱构建、时序分析以及大型语言模型驱动的信息提取评估与下游金融智能应用开发。

直接使用:https://go.hyper.ai/EB5em

7. WenetSpeech Yue 粤语语料数据集

WenetSpeech Yue 是一个用于粤语语音识别(ASR)与文本到语音合成(TTS)的 多维注释大型语音语料库,旨在填补粤语领域资源匮乏的空白,推动高质量粤语模型的训练与评估。

直接使用:https://go.hyper.ai/cICOv

8UCIT 连续指令调优数据集

UCIT 是一个多模态大型语言模型的持续指令调优基准数据集,该数据集中的每条样本由任务说明(prompt/instruction)和对应的正确执行期望(ground-truth response)构成,用于衡量模型在零样本条件下的表现。

直接使用:https://go.hyper.ai/TZPwY

9. LoongBench 多领域推理基准数据集

LoongBench 是一个多领域推理评测数据集,旨在为 LLM 提供多领域、可验证的训练与评测资源。该数据集包含 8,729 条以自然语言问题形式表达、覆盖高等数学、高等物理学等 12 个推理密集型领域。

直接使用:https://go.hyper.ai/AcFOZ

10. CA‑1 人类偏好对齐数据集

CA-1 聚焦于人类对 AI 模型默认行为的价值判断与偏好,是一个结合模型生成内容与注释者评估的人类反馈行为数据集,适用于研究群体对齐差异、指导模型行为规范与开发价值敏感奖励机制。

直接使用:https://go.hyper.ai/mXznO

公共教程精选

1. Wan2.2-S2V-14B:影视级音频驱动视频生成

Wan2.2-S2V-14B 是由阿里巴巴通义万相团队开源的一款音频驱动的视频生成模型, 仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,支持多种图片类型和画幅。模型融合多种创新技术,实现复杂场景的音频驱动视频生成,支持长视频生成及多分辨率训练与推理。

在线运行:https://go.hyper.ai/TlSai

效果展示

2. DeepTCR:深度学习预测 TCR-肽亲和力

DeepTCR 是一个基于深度学习的免疫受体测序分析框架,它可以从 TCR 测序的免疫组库数据中进行亲和力预测,提取并学习 TCR 的 CDR3 序列, V/D/J 基因使用情况或者 MHC 分子类型特点,对 TCR 的联合表示来建模高度复杂的 TCR 测序数据,可从具有背景噪音的单细胞 RNA-Seq 和基于 T 细胞培养的测定中提取抗原特异性 TCR 。

在线运行:https://go.hyper.ai/gKmgi

💡我们还建立了 Stable Diffusion 教程交流群,欢迎小伙伴们扫码备注【SD 教程】,入群探讨各类技术问题、分享应用效果~

本周论文推荐

1. Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

本文提出了 Swarm sAmpling Policy Optimization(SAPO),一种完全去中心化且异步的强化学习后训练算法。 SAPO 针对异构计算节点组成的去中心化网络而设计,每个节点自主管理自身的策略模型,同时与其他节点「共享」轨迹;该算法不依赖于对延迟、模型同质性或硬件配置的显式假设,节点也可按需独立运行。

论文链接:https://go.hyper.ai/MWeWF

2. Why Language Models Hallucinate

本文提出语言模型产生幻觉的根本原因在于,其训练与评估机制倾向于奖励猜测行为,而非承认不确定性,进一步分析了现代训练流程中导致幻觉的统计学根源。大模型对不确定回答的系统性惩罚,反映出当前主流但存在偏差的基准测试的评分方式应该予以修改,而非引入额外的幻觉评估指标。

论文链接:https://go.hyper.ai/eXoOR

3. Reverse-Engineered Reasoning for Open-Ended Generation

本文提出一种全新的范式——逆向工程推理(REverse-Engineered Reasoning, REER),从根本上改变了推理构建的方式。与传统方法通过试错或模仿自下而上地构建推理过程不同,REER 采用「逆向」策略,从已知的优质解出发,通过计算手段挖掘出能够生成这些解的潜在、分步式的深度推理路径。

论文链接:https://go.hyper.ai/xFygJ

4. Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

本文提出了 Parallel-R1,这是首个面向复杂现实世界推理任务的强化学习(RL)框架,能够实现并行思维行为。该框架采用渐进式课程设计,明确解决了在强化学习中训练并行思维所面临的冷启动问题。

论文链接:https://go.hyper.ai/s2OlH

5. WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

本文借助精心构建的高质量数据集,通过监督微调结合强化学习,成功训练出先进的网页代理模型  WebExplorer-8B 。该模型支持长达 128K 的上下文长度,并可执行最多 100 次工具调用,从而实现长时程问题求解。在多个信息检索基准测试中,WebExplorer-8B 在同等规模模型中达到了当前最优性能。

论文链接:https://go.hyper.ai/NusbG

更多 AI 前沿论文:https://go.hyper.ai/iSYSZ

社区文章解读

1.  关联基因表达数据与细胞形态图像,港中文等开发转录组引导的扩散模型,为表型药物研发提速

中国香港中文大学、穆罕默德·本·扎耶德人工智能大学等机构的研究人员提出了一个可扩展的转录组引导扩散模型——MorphDiff,专门用于高保真模拟细胞形态对扰动的响应过程。该模型基于 Latent Diffusion Model(LDM)架构构建,以 L1000 基因表达谱作为条件输入进行去噪训练。

查看完整报道:https://go.hyper.ai/f7WeP

2.  从「盲筛」到「精准定位」,中国石油大学团队推出 AlphaPPIMI,PPIs 界面调节剂预测性能超越现有方法

中国石油大学和延世大学的联合研究团队整合了多项先进技术,构建了名为 AlphaPPIMI 的新框架。该工具结合大规模预训练模型和自适应学习机制,旨在解决「发现特异性靶向 PPIs 界面的调节剂」这一核心挑战,为未来 PPIs 靶向药物的开发提供了有力支持。

查看完整报道:https://go.hyper.ai/4tp0M

3. Apple Intelligence 全面落地,核心产品 AI 功能升级:实时翻译/视觉智能/高血压监测

北京时间 9 月 10 日凌晨 1 点,苹果 2025 秋季发布会全面聚焦 AI,发布 iPhone 17 、 Apple Watch Series 11 、 AirPods Pro 3 三大核心产品 AI 功能升级。 Apple Intelligence 从去年的概念展示走向全面落地,覆盖实时翻译、健康监测、视觉智能等场景,新一代 A19 与 M19 Pro 芯片成为算力基石。

查看完整报道:https://go.hyper.ai/IimjS

4.  从伦理保障到病史管理,武汉大学等提出 Healthcare Agent,问诊主动性及相关性超越 GPT-4 等闭源模型

武汉大学和南洋理工大学研究团队联合发布了由对话、记忆和处理三个组件构成的 Healthcare Agent,实现了患者医疗目的的识别,并自动检测医疗伦理和安全问题的功能。

查看完整报道:https://go.hyper.ai/AdG2j

5.  从苹果收购传闻到 ASML 豪掷 13 亿成大股东,起底 Mistral AI 的技术与商业密码

9 月初,苹果被曝出有意收购法国初创公司 Mistral AI 的消息,而紧随其后,半导体巨头 ASML 又以 13 亿欧元领投其 C 轮融资。目前,该公司估值已飙升至 140 亿美元,成为了欧洲 AI 赛道最炙手可热的标杆力量。

查看完整报道:https://go.hyper.ai/zsQBu

热门百科词条精选

1. DALL-E

2.  倒数排序融合 RRF

3.  帕累托前沿 Pareto Front

4.  大规模多任务语言理解 MMLU

5. 对比学习 Contrastive Learning

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki

一站式追踪人工智能学术顶会:https://go.hyper.ai/event

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1800+ 公开数据集提供国内加速下载节点

* 收录 600+ 经典及流行在线教程

* 解读 200+ AI4Science 论文案例

* 支持 600+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai