L'ensemble De Données De Réglage Fin Chinois Llama 3.1 Est Désormais En Ligne Et De Grands Modèles Peuvent Être Déployés En Un Seul Clic

Le cercle de l'IA en juillet était plein de petits modèles et de grands modèles, et c'était passionnant ! La plupart des étudiants peuvent expérimenter de petits modèles tels que GPT-4o et Mistral-Nemo, mais les modèles super grands tels que Llama-3.1-405B et Mistral-Large-2 troublent de nombreux étudiants.
Ne vous inquiétez pas!Le site Web officiel hyper.ai propose des tutoriels dans la section tutoriel pour démarrer ces deux modèles super volumineux à l'aide de « Open WebUI » et du « service API compatible OpenAI » !De plus, l'ensemble de données de réglage fin chinois DPO-zh-en-emoji est également en ligne. Faites défiler vers le bas pour obtenir le lien~
Du 5 au 9 août, le site officiel d'hyper.ai est mis à jour :
* Sélection de tutoriels de haute qualité : 5
* Ensembles de données publiques de haute qualité : 10
* Sélection d'articles communautaires : 3 articles
* Entrées d'encyclopédie populaire : 5
* Principales conférences avec date limite en août : 2
Visitez le site officiel :hyper.ai
Tutoriels publics sélectionnés
1. Utilisez Open WebUI pour déployer Mistral Large 2 / Llama 3.1 405B en un clic
Ce tutoriel utilise OpenWebUI pour déployer Mistral Large 2 / Llama 3.1 405B en un clic. L'environnement et la configuration appropriés ont été mis en place. Il vous suffit de cloner et de démarrer le conteneur pour expérimenter l'inférence.
* Exécutez le déploiement du modèle Mistral Large 2 en ligne :
* Exécutez le déploiement du modèle Llama 3.1 405B en ligne :
2. Déploiement en un clic du service API compatible OpenAI du modèle Mistral Large 2 / Llama 3.1 405B
Ce tutoriel consiste à déployer Mistral-Large-Instruct-2407-AWQ à l'aide de l'API compatible OpenAI. « API compatible OpenAI » signifie que les développeurs tiers peuvent utiliser le même format de demande et de réponse qu'OpenAI pour intégrer des fonctionnalités similaires dans leurs propres applications. Après avoir démarré ce tutoriel, vous pouvez vous connecter à ce modèle dans n'importe quel SDK compatible OpenAI. Comparé au tutoriel précédent, il est plus compliqué et convient à ceux qui ont une compréhension de base de la programmation.
* Exécutez le déploiement du modèle Mistral Large 2 en ligne :
* Exécutez le déploiement du modèle Llama 3.1 405B en ligne :
3. Utiliser la diffusion de Gibbs pour le débruitage des images aveugles
GDiff signifie Gibbs-Diffusion, une méthode de débruitage aveugle bayésienne qui résout le problème d'échantillonnage postérieur des paramètres de signal et de bruit. Ce tutoriel est une méthode de test basée sur l'article « Écouter le bruit : débruitage aveugle avec diffusion de Gibbs ». Vous pouvez découvrir les résultats de la recherche en suivant les étapes du tutoriel.
Exécutez en ligne :https://go.hyper.ai/y2wIU
Ensembles de données publiques sélectionnés
1. Ensemble de données de réponses aux questions emoji DPO-zh-en-emoji
Cet ensemble de données est conçu pour affiner les grands modèles linguistiques. Il contient une grande quantité de paires questions-réponses. Chaque question a deux versions de la réponse, chinoise et anglaise. Les réponses intègrent également des éléments amusants et humoristiques, notamment l’utilisation d’émojis. L'équipe shareAI l'a utilisé pour peaufiner le modèle Llama 3.1 8B.
Utilisation directe :https://go.hyper.ai/Y90pZ
2. Ensemble de données de référence pour la cartographie des inondations UrbanSARFloods v1
UrbanSARFloods est un ensemble de données dédié à la cartographie des inondations en milieu urbain et en zones ouvertes, contenant 8 879 patchs d'images 512 × 512, couvrant 807 500 kilomètres carrés et couvrant 18 événements d'inondation. Cela résout le problème de l’attention insuffisante accordée aux inondations urbaines dans les études de cartographie des inondations à grande échelle dérivées du SAR.
Utilisation directe :https://go.hyper.ai/yOXx7
L'ensemble de données est un ensemble de données de référence en langage visuel polyvalent conçu pour la compréhension des images de télédétection. Il contient 29 614 images sous-titrées détaillées vérifiées manuellement, 52 472 références d'objets et 123 221 paires questions-réponses. Son objectif est de faire progresser le développement de modèles généraux de langage visuel d’images de télédétection à grande échelle.
Utilisation directe :https://go.hyper.ai/O7DtC
4. Ensemble de données de texture de caractères 3D haute résolution ATLAS
Le nom complet de cet ensemble de données est ArTicuLated humAn textureS (ATLAS en abrégé), qui est le plus grand ensemble de données de texture humaine 3D haute résolution (1 024 × 1 024), contenant 50 000 textures haute fidélité avec des descriptions textuelles. Les résultats des articles pertinents ont été sélectionnés pour l'ECCV 2024.
Utilisation directe :https://go.hyper.ai/Zx1nj
5. Ensemble de données MIND Microsoft News
MIND contient environ 160 000 articles d'actualité en anglais et plus de 15 millions de journaux d'impressions générés par 1 million d'utilisateurs, collectés à partir de journaux comportementaux anonymes du site Web Microsoft News. Il vise à servir d'ensemble de données de référence pour la recommandation d'actualités et à promouvoir la recherche dans le domaine de la recommandation d'actualités et des systèmes de recommandation.
Utilisation directe :https://go.hyper.ai/lVOyX
6. Ensemble de données de segmentation de détection d'incendie BoWFire
Le jeu de données BoWFire est un jeu de données d'images dédié à la détection de flammes, qui vise à améliorer la précision de la détection d'incendie et à réduire les fausses alarmes. L'ensemble de données comprend des images d'incendie dans diverses situations d'urgence, telles que des incendies de bâtiments, des incendies industriels, des accidents de voiture et des émeutes.
Utilisation directe :https://go.hyper.ai/73AYY
7. Ensemble de données d'articles d'actualité CNN/DailyMail
L'ensemble de données contient plus de 300 000 articles d'actualité rédigés par des journalistes de CNN et du Daily Mail et est conçu pour aider à développer des modèles capables de résumer de longs paragraphes de texte en une ou deux phrases.
Utilisation directe :https://go.hyper.ai/AbidL
8. Ensemble de données Doodle Ensemble de données d'images Doodle
L'ensemble de données contient plus d'un million d'images couvrant 340 catégories de graffitis, qui peuvent être traitées pour des tâches d'apprentissage automatique.
Utilisation directe :https://go.hyper.ai/Ns4M4
9. Ensemble de données d'images d'actions de yoga humain Yoga-16
L'ensemble de données Yoga-16 vise à améliorer la précision de classification des modèles de reconnaissance des poses de yoga. Il est divisé en trois répertoires principaux : formation, test et validation, chacun contenant 16 sous-répertoires correspondant à 16 postures de yoga différentes.
Utilisation directe :https://go.hyper.ai/iMe0Z
L'ensemble de données contient deux dossiers d'images de catégories de personnes : homme et femme. Les images incluent des visages, des torses supérieurs et des corps entiers. Il peut être utilisé pour divers projets tels que la reconnaissance du genre, l’identification humaine et la classification d’images.
Utilisation directe :https://go.hyper.ai/6UJb7
Pour plus d'ensembles de données publics, veuillez visiter :
https://hyper.ai/datasets
Articles de la communauté
Le deuxième épisode de la série de diffusion en direct « Meet AI4S » a invité Li Yuzhe, chercheur postdoctoral au laboratoire de Zhang Qiangfeng à l'Université Tsinghua. Le 21 août, le Dr Li Yuzhe partagera davantage avec tout le monde les méthodes d'IA dans la recherche sur la transcriptomique spatiale et l'omique unicellulaire sous la forme d'une diffusion en direct en ligne.
Afficher les détails de l'événement :https://go.hyper.ai/GIzpo
Google Research et le MIT se sont associés pour remporter le prix du meilleur article IJCAI 2024 ! Répondez à IJCAI 2024 sur le compte officiel WeChat pour obtenir la collection du prix du meilleur article IJCAI 2024, du prix de l'article exceptionnel, du prix de l'article classique AIJ et du prix de l'article exceptionnel.
Voir le rapport complet :https://go.hyper.ai/ZGzI2
L'équipe dirigée par le professeur Huang Tianyin, vice-recteur et directeur de la faculté de médecine de l'université Tsinghua, l'équipe dirigée par le professeur Sheng Bin du département d'informatique de l'école de génie électrique de l'université Jiao Tong de Shanghai/laboratoire clé d'intelligence artificielle du ministère de l'Éducation, l'équipe dirigée par le professeur Jia Weiping et le professeur Li Huating du sixième hôpital populaire affilié à la faculté de médecine de l'université Jiao Tong de Shanghai, et l'équipe dirigée par le professeur Qin Yuzong de l'université nationale de Singapour et du centre national des yeux de Singapour ont travaillé ensemble pour construire avec succès le premier système intégré de modèle de langage vision-grand au monde, DeepDR-LLM, pour le diagnostic et le traitement du diabète. Cet article est une interprétation détaillée et un partage de la recherche.
Voir le rapport complet :https://go.hyper.ai/qnzSp
Articles populaires de l'encyclopédie
1. Intersection sur l'Union (IoU)
2. Fusion de tri réciproque RRF
3. Apprentissage contrastif
4. Compréhension linguistique multitâche à grande échelle (MMLU)
5. Mémoire à long et à court terme Mémoire à long terme
Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

Suivi unique des principales conférences universitaires sur l'IA :https://go.hyper.ai/event
Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !
À la semaine prochaine !
À propos d'HyperAI
HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :
* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 300 ensembles de données publiques
* Comprend plus de 400 tutoriels en ligne classiques et populaires
* Interprétation de plus de 100 cas d'articles AI4Science
* Prise en charge de plus de 500 termes de recherche associés
* Hébergement de la première documentation complète d'Apache TVM en Chine
Visitez le site Web officiel pour commencer votre parcours d'apprentissage :