HyperAIHyperAI

Command Palette

Search for a command to run...

1 年前

小而显著:小型语言模型在可访问性AIED中的潜力

Yumou Wei Paulo Carvalho John Stamper

一键部署 DePLM:用去噪的语言模型优化蛋白质(小样本)

20 小时 RTX 5090 算力资源,仅 $1 (原价 $7)
跳转至 Notebook

摘要

GPT几乎已成为大语言模型(LLMs)的同义词,这一术语在AIED(人工智能教育应用)会议中越来越流行。简单的关键词搜索显示,在AIED 2024上提交的76篇长文和短文中,有61%描述了使用LLM解决教育中长期存在的挑战的新方案,其中43%特别提到了GPT。尽管由GPT引领的LLM为增强AI对教育的影响创造了令人兴奋的机会,但我们认为,该领域对GPT和其他资源密集型LLM(参数量超过10B)的过度关注,可能会忽视小型语言模型(SLMs)在为资源受限机构提供公平且负担得起的高质量AI工具方面所具有的巨大潜力。我们在知识组件(KC)发现这一AIED关键挑战上取得了积极成果,证明了诸如Phi-2等SLM无需复杂的提示策略即可生成有效的解决方案。因此,我们呼吁更多地关注基于SLM的AIED方法的发展。

一句话总结

本文证明小型语言模型 Phi-2 无需复杂提示即可有效解决知识组件发现任务,作者倡导将 SLM 作为大语言模型的资源高效替代方案,以促进教育人工智能(AIED)领域的公平访问。

核心贡献

  • 本研究推出了 Phi-2,这是一款基于精选教材级数据训练的小型语言模型。该模型仅需 5.4 GB 内存即可在消费级硬件上实现本地推理,为资源受限的教育环境提供解决方案。
  • 在 GSM8K、HumanEval、MBPP 和 MMLU 上的实证评估表明,Phi-2 在数学推理、编程及广泛学术知识任务上的表现达到或超越了 Llama-2 和 Mistral 等参数量大得多的架构。
  • 开发了一种知识组件发现算法,该算法利用模型的直接 token 生成能力,在无需依赖复杂提示策略的情况下,超越了教学专家与基于 GPT 的基线模型。

引言

大语言模型在教育技术中的快速整合有望带来先进的 AI 驱动辅导与评估能力,然而其巨大的计算需求及对第三方云 API 的依赖,为资金不足的教育机构设置了显著门槛,并引发了严重的学生隐私担忧。这种对资源密集型架构的普遍偏好往往忽视了课堂部署的实际限制,而有限的预算、普通的硬件配置以及数据主权问题才是决定技术落地的关键因素。作者利用 Phi-2 等小型语言模型证明,将数据质量置于参数量之上,能够产出在消费级硬件上高效运行的高性能工具。通过将 Phi-2 重新定位为用于知识组件发现的概率相似度引擎,研究团队证明较小规模的模型不仅能够超越人类专家与大型 GPT 系统,还能为教育场景提供更易获取、成本更低且保障隐私的解决方案。

方法

作者利用语言模型固有的概率能力,开发了一种用于知识组件(KC)发现的新方法,突破了传统的文本生成范式。该方法不依赖提示大语言模型(LLM)直接生成 KC 标签,而是将语言模型视为一种能够估算文本序列出现概率的“概率机”。这使得作者能够基于“问题一致性”概念定义一种问题相似度度量方法,该度量在数学上等价于两个问题之间的点互信息(PMI)。核心思想在于:若某个问题的出现提升了另一问题在特定上下文中出现的概率,则这两个问题被视为一致,并可能共享共同的知识组件。

为实现该方案,作者采用专为教育应用微调的小型语言模型(SLM)Phi-2,来计算一致性公式所需的概率值。模型配置为使用 top-1 采样,确保每一步的 token 选择具有确定性,从而实现对条件概率的可靠估计。通过对多选题(MCQ)对进行评估,该框架计算一致性得分,反映两个问题在其底层 KC 方面的关联强度。随后将该相似度度量输入聚类算法,对可能共享相同 KC 的问题进行分组。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供