HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un an

Petits mais significatifs : sur le potentiel des petits modèles de langage pour l'AIED accessible

Yumou Wei Paulo Carvalho John Stamper

Déploiement en un clic de DePLM : Optimisation des protéines avec des modèles de langage à débruitage (peu d'exemples)

20 heures de calcul sur RTX 5090 pour seulement $1 (valeur $7)
Aller à Notebook

Résumé

GPT est devenu presque synonyme de grands modèles de langage (LLM), un terme de plus en plus populaire dans les publications de la conférence AIED. Une recherche simple basée sur les mots-clés révèle que 61 % des 76 articles longs et courts présentés à AIED 2024 décrivent des solutions novatrices utilisant des LLM pour répondre à certains des défis de longue date dans le domaine de l'éducation, et 43 % mentionnent spécifiquement GPT. Bien que les LLM, initiés par GPT, créent des opportunités passionnantes pour renforcer l'impact de l'IA sur l'éducation, nous soutenons que l'accent prédominant du domaine sur GPT et d'autres LLM exigeants en ressources (comportant plus de 10 milliards de paramètres) risque de négliger l'impact potentiel que les petits modèles de langage (SLM) peuvent avoir en offrant aux institutions aux ressources limitées un accès équitable et abordable à des outils d'IA de haute qualité. Soutenus par des résultats positifs sur la découverte des composants de connaissance (KC), un défi critique en AIED, nous démontrons que des SLM tels que Phi-2 peuvent produire une solution efficace sans stratégies d'incitation élaborées. Par conséquent, nous appelons à une plus grande attention portée au développement d'approches AIED basées sur les SLM.

One-sentence Summary

Demonstrating that the small language model Phi-2 effectively solves knowledge component discovery without elaborate prompting, the authors advocate for SLMs as a resource-efficient alternative to large language models to advance equitable access in AIED.

Key Contributions

  • This work introduces Phi-2, a small language model trained on curated textbook-quality data, which requires only 5.4 GB of memory to enable local inference on consumer-grade hardware for resource-constrained educational settings.
  • Empirical evaluations on GSM8K, HumanEval, MBPP, and MMLU demonstrate that Phi-2 matches or exceeds the performance of significantly larger architectures such as Llama-2 and Mistral across mathematical reasoning, coding, and broad academic knowledge tasks.
  • A knowledge component discovery algorithm is developed that leverages the model's direct token generation capabilities to outperform instructional experts and GPT-based baselines without relying on elaborate prompting strategies.

Introduction

The rapid integration of large language models into educational technology promises advanced AI-driven tutoring and assessment capabilities, yet their substantial computational requirements and reliance on third-party cloud APIs create significant barriers for underfunded institutions and raise critical student privacy concerns. This community-wide preference for resource-heavy architectures often ignores the practical constraints of classroom deployment, where limited budgets, modest hardware, and data sovereignty dictate technology adoption. The authors leverage small language models like Phi-2 to demonstrate that prioritizing data quality over parameter count yields highly capable tools that run efficiently on consumer-grade hardware. By repurposing Phi-2 as a probabilistic similarity engine for knowledge component discovery, they prove that smaller models can outperform both human experts and larger GPT systems while delivering a more accessible, affordable, and privacy-safe solution for educational settings.

Method

The authors leverage the intrinsic probabilistic capabilities of a language model to develop a novel approach for knowledge component (KC) discovery, moving beyond conventional text generation methods. Rather than relying on prompting large language models (LLMs) to generate KC labels directly, the method treats the language model as a "probability machine" that can estimate the likelihood of textual sequences. This allows the authors to define a measure of question similarity based on the concept of question congruity, which is mathematically equivalent to pointwise mutual information (PMI) between two questions. The core idea is that if the presence of one question increases the probability of another question appearing in a given context, the two questions are considered congruent and likely to share a common knowledge component.

To operationalize this, the authors use Phi-2, a small language model (SLM) tuned for educational applications, to compute the necessary probabilities for the congruity formula. The model is configured to use top-1 sampling, ensuring deterministic token selection at each step, which enables reliable estimation of conditional probabilities. By evaluating pairs of multiple-choice questions (MCQs), the framework calculates the congruity score, which reflects how strongly two questions are related in terms of their underlying KCs. This similarity measure is then fed into a clustering algorithm to group questions that are likely to share the same KC.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp