La Date Limite De Soumission Pour AAAI'25 Est Aujourd'hui ! Les Membres Principaux De SD Ouvrent La Source D'un Modèle De Graphique Textuel Plus Puissant Que Midjourney, Désormais Disponible Pour Un Démarrage En Un Clic

Midjourney n'est vraiment plus populaire ! Suite à la sortie open source de Stable Diffusion 3 en juin, Robin Rombach, ancien membre principal de Stability AI, a dirigé une nouvelle équipe pour lancer la famille de modèles de génération d'images FLUX.1 plus tôt ce mois-ci. Les responsables affirment que FLUX.1 surpasse les modèles de tête de Midjourney v6.0 et DALL·E 3 et d'autres cartes culturelles dans plusieurs indicateurs clés, et qu'il est également open source. Cela semble si puissant, êtes-vous également impatient de l'essayer ?
Le site officiel hyper.ai a maintenant lancé la « FLUX.1-schnell Vincent Figure Demo » dans la section tutoriel.Il suffit de le cloner en un clic et de commencer à jouer. Faites défiler l'article pour obtenir le lien~
Du 12 au 16 août, le site officiel de hyper.ai est mis à jour :
* Sélection de tutoriels de haute qualité : 3
* Ensembles de données publiques de haute qualité : 10
* Sélection d'articles communautaires : 4 articles
* Entrées d'encyclopédie populaire : 5
* Principales conférences avec date limite en août : 2
Visitez le site officiel :hyper.ai
Tutoriels publics sélectionnés
1. Démo de la figurine Vincent FLUX.1-schnell
FLUX.1 est un grand modèle avec 12 milliards de paramètres qui peut générer des images à partir de descriptions textuelles, obtenant des résultats de pointe en termes de suivi instantané, de qualité visuelle, de détails d'image et de diversité de sortie. Ce tutoriel utilise le modèle de version FLUX.1 [schnell]. Le modèle et l'environnement sont déployés. Vous pouvez utiliser directement le grand modèle pour la génération d'inférences selon les instructions du didacticiel.
Utilisation directe :https://go.hyper.ai/peksE
L'auteur de ControlNet, Lvmin Zhang, a développé un nouveau projet appelé Paints-Undo, qui peut rapidement démonter le processus de peinture de n'importe quelle image et aider les débutants à mieux comprendre les techniques de peinture de différents styles d'images. HyperAI a maintenant lancé la « Démo Paints-Undo de l'ensemble du processus de peinture généré à partir d'une image ». Ce tutoriel a créé un environnement pour tout le monde. Vous n'avez pas besoin de saisir de commandes, vous pouvez le démarrer avec un clonage en un clic !
Utilisation directe :https://go.hyper.ai/EwBE0
3. Déploiement en un clic du grand modèle chimique Puke ChemLLM-7B-chat Démo
ChemLLM-7B-Chat est le premier modèle de langage open source à grande échelle pour la chimie et les sciences moléculaires « Puke Chemistry (ChemLLM) » open source par le Shanghai Artificial Intelligence Laboratory (Shanghai AI Laboratory) en 2024. Ce tutoriel est une démonstration de déploiement en un clic du modèle. Il vous suffit de cloner et de démarrer le conteneur et de copier directement l'adresse API générée pour expérimenter l'inférence du modèle.
Utilisation directe :https://go.hyper.ai/X8V9z
Ensembles de données publiques sélectionnés
1. Ensemble de données de tâches chimiques ChemData
Cet ensemble de données a été rendu open source par le Shanghai Artificial Intelligence Laboratory avec son premier grand modèle scientifique, le Pu Ke Chemical Big Model (ChemLLM). Il comprend principalement 9 tâches chimiques de base, 730 000 questions et réponses de haute qualité, un grand modèle de langage, des instructions sur les capacités chimiques et des ensembles de données de réglage fin.
Utilisation directe :https://go.hyper.ai/94tF1
2. Ensemble de données de référence pour l'évaluation des capacités chimiques ChemBench4K
L'ensemble de données comprend 9 tâches sur les molécules et réactions chimiques, dont 4 100 questions à choix multiples. Le benchmark pose les bases pour mesurer objectivement le niveau de chimie des grands modèles linguistiques.
Utilisation directe :https://go.hyper.ai/itsdU
3. Ensemble de données de référence pour la récupération de texte BRIGHT
L'ensemble de données collecte 1 385 requêtes réelles provenant de différents domaines (StackExchange, LeetCode et concours de mathématiques), qui proviennent toutes de données artificielles réelles. L'ensemble de données BRIGHT est spécifiquement conçu pour tester si le système de recherche peut identifier de telles relations logiques profondes et trouver des articles ou des rapports universitaires pertinents.
Utilisation directe :https://go.hyper.ai/s735d
4. Ensemble de données de compréhension scientifique multimodal ArXiv
Multimodal ArXiv se compose d'ArXivCap et d'ArXivQA pour améliorer la compréhension scientifique du LVLM. ArXivCap est un ensemble de données de légendes de graphiques contenant 6,4 millions d'images et 3,9 millions de légendes. ArXivQA est un ensemble de données de questions-réponses généré par GPT-4V basé sur des graphiques scientifiques via des invites. Les résultats pertinents ont été acceptés par l'ACL 2024.
Utilisation directe :https://go.hyper.ai/n64Jh
5. Ensemble de données de réponses aux questions d'articles scientifiques multimodaux SPIQA
Il s’agit du premier ensemble de données d’assurance qualité à grande échelle spécialement conçu pour interpréter des figures et des tableaux complexes dans des articles de recherche scientifique dans divers domaines de l’informatique. Il contient 270 000 questions réparties en formation, validation et 3 parties d'évaluation différentes. En menant des expériences approfondies sur 12 modèles de base bien connus, l’équipe a évalué la capacité des systèmes multimodaux actuels à comprendre les aspects subtils des articles de recherche.
Utilisation directe :https://go.hyper.ai/qd7I2
6. Ensemble de données d'évaluation de référence multimodale MMEvaIPro
MMEvalPro améliore les méthodes d’évaluation existantes en ajoutant deux questions « d’ancrage » (1 question de perception et 1 question de connaissances), formant un « triplet de questions » qui teste différents aspects de la compréhension multimodale du modèle. Le test final contient 2 138 triplets de questions, pour un total de 6 414 questions différentes couvrant différents sujets et niveaux de difficulté.
Utilisation directe :https://go.hyper.ai/Hw8JA
7. Ensemble de données médicales VQA à grande échelle PubMedVision
PubMedVision est un ensemble de données médicales multimodales à grande échelle et de haute qualité. L'équipe de recherche a utilisé des méthodes sophistiquées de traitement de données pour filtrer les images à caractère médical et les descriptions d'images informatives des articles des revues médicales internationales PubMed, filtrant ainsi efficacement un grand nombre d'images non pertinentes sur le plan médical et de contenus non pertinents sur le plan contextuel.
Utilisation directe :https://go.hyper.ai/Uy8XM
8. Ensemble de données de référence multimodales d'auto-instruction multimodale
L'ensemble de données contient un total de 11 193 images abstraites avec des questions pertinentes, couvrant 8 catégories principales, notamment des tableaux de bord, des feuilles de route, des graphiques, des tableaux, des organigrammes, des diagrammes de relations, des énigmes visuelles et des plans d'étage 2D, en plus de 62 476 données supplémentaires pour affiner le modèle.
Utilisation directe :https://go.hyper.ai/FwGuz
9. Assetto Corsa Gym Benchmark de simulation de course autonome à grande échelle
L'ensemble de données collecte 64 millions d'étapes de données de conduite de course, dont 2,3 millions d'étapes proviennent de conducteurs humains ayant différentes compétences de conduite et le reste provient de politiques Soft Actor-Critic (SAC).
Utilisation directe :https://go.hyper.ai/6tfuM
MiraData se concentre sur des clips vidéo non coupés de 1 à 2 minutes (durée moyenne de 72,1 secondes), et chaque vidéo est accompagnée d'une description structurée sous différents angles, avec une longueur de description moyenne de 318 mots, garantissant une présentation complète du contenu vidéo. Cet ensemble de données fournit des ressources précieuses et de nouveaux défis aux chercheurs dans les domaines de la génération de vidéos longues, de la compréhension et de la génération de contenu vidéo.
Utilisation directe :https://go.hyper.ai/2LmEJ
Pour plus d'ensembles de données publics, veuillez visiter :
Articles de la communauté
Le 14 août, les différentes récompenses de l'ACL 2024 ont été annoncées une à une. Au total, 7 résultats ont remporté le prix du meilleur article. « Décrypter le langage Oracle Bone avec des modèles de diffusion », publié conjointement par l'Université des sciences et technologies de Huazhong, l'Université d'Adélaïde, l'Université normale d'Anyang et l'Université de technologie de Chine du Sud, a remporté le prix. HyperAI Super Neural Network a apporté à chacun une interprétation détaillée.
Voir le rapport complet :https://go.hyper.ai/t5Zon
Récemment, Pratyusha Sharma du MIT et des chercheurs du CETI ont utilisé l'apprentissage automatique pour analyser les enregistrements de cachalots, confirmant que les sons émis par les cachalots sont structurés et formés par une combinaison de différentes caractéristiques. Ils ont également isolé l’alphabet de prononciation du cachalot, qui est très similaire au système d’expression du langage humain. Cet article est une interprétation détaillée et un partage du document de recherche.
Voir le rapport complet :https://go.hyper.ai/nA23S
Récemment, l'équipe de recherche de l'académicien Dai Qionghai et du professeur Fang Lu de l'Université Tsinghua a saisi la symétrie de la propagation des photons, assimilant la propagation vers l'avant et vers l'arrière dans l'entraînement du réseau neuronal à la propagation vers l'avant de la lumière, et a développé une méthode d'apprentissage en mode direct complet. Cet article est une interprétation détaillée et un partage du document de recherche.
Voir le rapport complet :https://go.hyper.ai/lxNhj
Afin de combiner de manière plus organique l'algorithme du réseau neuronal et l'algorithme DFT, le groupe de recherche de Xu Yong et Duan Wenhui de l'Université Tsinghua a proposé le cadre de la théorie fonctionnelle de la densité du réseau neuronal (DFT du réseau neuronal). Ce cadre unifie la minimisation des fonctions de perte dans les réseaux neuronaux et l'optimisation des fonctionnelles énergétiques dans la théorie de la fonctionnelle de la densité. Comparé aux méthodes d'apprentissage supervisé traditionnelles, il offre une précision et une efficacité supérieures et ouvre une nouvelle voie au développement de méthodes DFT d'apprentissage en profondeur. Cet article est une interprétation détaillée et un partage du document de recherche.
Voir le rapport complet :https://go.hyper.ai/oE7nH
Articles populaires de l'encyclopédie
1. Test t apparié
2. Fusion de tri réciproque RRF
3. Front de Pareto
4. Compréhension linguistique multitâche à grande échelle (MMLU)
5. Augmentation des données
Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

Suivi unique des principales conférences universitaires sur l'IA :https://go.hyper.ai/event
Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !
À la semaine prochaine !
À propos d'HyperAI
HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :
* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 300 ensembles de données publiques
* Comprend plus de 400 tutoriels en ligne classiques et populaires
* Interprétation de plus de 100 cas d'articles AI4Science
* Prise en charge de plus de 500 termes de recherche associés
* Hébergement de la première documentation complète d'Apache TVM en Chine
Visitez le site Web officiel pour commencer votre parcours d'apprentissage :