HyperAI

InfinityInstruct-3M Veröffentlicht Zehn Millionen Feinabstimmungsdatensätze

Datum

vor einem Jahr

Größe

2.79 GB

Organisation

Veröffentlichungs-URL

huggingface.co

InfinityInstruct ist ein groß angelegtes, hochwertiges Open-Source-Projekt zur Feinabstimmung von Datensätzen für Anweisungen, das von der Beijing Academy of Artificial Intelligence (BAAI) ins Leben gerufen wurde. Das Ziel dieses Projekts besteht darin, einen Datensatz mit Millionen von Anweisungen zu entwickeln, um die Anweisungsverfolgungsfunktionen für große Sprachmodelle zu unterstützen und dadurch die Modellleistung zu verbessern.

Bei dieser Version handelt es sich um den InfinityInstruct-3M-Befehlsdatensatz. Die endgültige Version wird voraussichtlich Ende Juni veröffentlicht.

Zu den Funktionen von InfinityInstruct gehören:

  1. Große Datensätze:Das Projekt plant die Veröffentlichung von mehreren zehn Millionen Befehlsdaten. In der ersten Phase wurden bereits 3 Millionen chinesische und englische Befehlsdaten veröffentlicht.
  2. Hochwertiges Screening:Das Zhiyuan Research Institute führt Feldanalysen und Qualitätsprüfungen an vorhandenen Open-Source-Daten durch, um den hohen Wert der Daten sicherzustellen, und ergänzt die Daten in Bereichen, in denen es an Daten mangelt.
  3. Beiträge der Open Source-Community: Während des Datensatzerstellungsprozesses stellte die Open-Source-Community eine große Menge an Anweisungsdaten bereit, darunter Datensätze aus mehreren Quellen, wie OpenHermes-2.5, UltraInteract_sft, CodeBagel usw.
  4. Risikobewertung und Datengenerierung: Das Projektteam führt derzeit eine Risikobewertung und Datengenerierung durch und erwartet, die endgültige Version mit 10 Millionen Anweisungen bis Ende Juni zu veröffentlichen.
  5. Leistungsverbesserungen: Der aktuelle Open-Source-Datensatz mit 3 Millionen Anweisungen hat SFT-Datenfunktionen (Supervised Fine-Tuning) gezeigt, die vorhandene Datensätze wie Mistral und Openhermes übertreffen.
  6. Zukunftsaussichten: Es wird erwartet, dass das auf der Grundlage des Datensatzes zur Feinabstimmung von Anweisungen trainierte Dialogmodell das Niveau von GPT-4 erreichen kann, nachdem das Datenvolumen auf mehrere zehn Millionen angestiegen ist.

Die Entwicklung und Veröffentlichung des InfinityInstruct-Datensatzes ist von großer Bedeutung für die Förderung der Forschung und Anwendung groß angelegter Sprachmodelle. Es bietet umfangreiche Anweisungsdaten für große Modelle und trägt dazu bei, die Fähigkeit des Modells zu verbessern, Anweisungen zu verstehen und auszuführen. Gleichzeitig fördert sein Open-Source-Charakter auch die Zusammenarbeit und den Wissensaustausch in der KI-Community.

InfinityInstruct-3M.torrent
Seeding 1Herunterladen 1Abgeschlossen 111Gesamtdownloads 123
  • InfinityInstruct-3M/
    • README.md
      2.44 KB
    • README.txt
      4.88 KB
      • data/
        • Infinity-Instruct.zip
          2.79 GB