HyperAI

Ensemble De Données De Réglage Fin Des Instructions Nettoyées Par Alpaca

L'ensemble de données Alpaca-Cleaned est une version nettoyée de l'ensemble de données Alpaca original publié par l'Université de Stanford en 2024. L'Alpaca original est un ensemble de données de 52 000 instructions et démonstrations générées par le moteur d'OpenAI (text-davinci-003). Ces données d’instructions peuvent être utilisées pour apporter des ajustements d’instructions au modèle de langage afin que le modèle de langage suive mieux les instructions.

Cet ensemble de données corrige certains problèmes de l'Alpaca original, tels que les réponses hallucinatoires, les instructions fusionnées, les sorties vides et les champs de saisie incohérents, améliorant ainsi la qualité et la cohérence des données. L'ensemble de données nettoyé par Alpaca comporte divers scénarios d'application, notamment la génération de texte, les systèmes de réponse aux questions, la compréhension du langage naturel et la compréhension et la génération de code. Ses fonctionnalités incluent l’optimisation de la qualité, l’amélioration des performances, des ressources de modèle riches, du code open source et le support communautaire. Il encourage la participation communautaire, la mise à jour et l’amélioration continues et favorise le développement du domaine de la PNL.

Alpaca-Cleaned.torrent
Partage 2Téléchargement 0Terminés 107Téléchargements totaux 114
  • Alpaca-Cleaned/
    • README.md
      1.57 KB
    • README.txt
      3.15 KB
      • data/
        • Alpaca-Cleaned.zip
          13.98 MB