Déployez Phi 3.5 Mini+vision En Un Clic ! L'ensemble De Données De Référence De Lecture Multimodale MRR-Benchmark Est En Ligne, Comprenant 550 Paires Questions-réponses

Le petit modèle est à nouveau enroulé ! Microsoft publie trois annonces open source ! Phi 3.5 a publié trois modèles pour différentes tâches à la fois et a surpassé d'autres modèles similaires sur plusieurs benchmarks.
Parmi eux, Phi-3.5-mini-instruct est spécialement lancé pour les appareils dotés d'une mémoire ou d'une puissance de calcul limitée. Il peut démontrer de puissantes capacités de raisonnement même avec de petits paramètres et peut facilement gérer des tâches telles que la génération de code et la compréhension multilingue. Phi-3.5-vision-instruct est un leader dans le domaine multimodal, capable de traiter simultanément du texte et des informations visuelles, et peut facilement gérer des tâches telles que la compréhension d'images et le résumé vidéo.
HyperAI Super Neural Network a maintenant lancé les tutoriels de déploiement de modèles pour la version mini et la version vision. Faites défiler vers le bas pour obtenir le lien~
Du 2 au 6 septembre, le site officiel hyper.ai est mis à jour :
* Sélection de tutoriels de haute qualité : 3
* Ensembles de données publiques de haute qualité : 10
* Sélection d'articles communautaires : 3 articles
* Entrées d'encyclopédie populaire : 5
* Principales conférences avec date limite en septembre : 5
Visitez le site officiel :hyper.ai
Je voudrais vous recommander une activité de partage académique en ligne.Ziyi Zhou, chercheur postdoctoral à l'Université Jiao Tong de Shanghai, présentera une conférence intitulée « Méthodes d'apprentissage sur petits échantillons pour les modèles de langage protéique ».Apportez des informations pratiques en partageant, cliquez pour prendre rendez-vous pour regarder⬇️
Tutoriels publics sélectionnés
1. Déploiement en un clic de Phi-3.5-mini-instruct
Phi-3.5-mini-instruct prend en charge une longueur de contexte de 128 000 jetons et convient aux tâches telles que la génération de code, la résolution de problèmes mathématiques et le raisonnement basé sur la logique. Le modèle fonctionne bien dans les tâches de dialogue multilingues et multi-tours, et surpasse les autres modèles du même niveau sur le benchmark RepoQA. Ce tutoriel est une démonstration de déploiement en un clic du modèle. Il vous suffit de cloner et de démarrer le conteneur et de copier directement l'adresse API générée pour expérimenter l'inférence du modèle.
Utilisation directe :https://go.hyper.ai/F7smR
2. Déploiement en un clic de Phi-3.5-vision-instruct
Le modèle Phi-3.5-vision-instruct dispose de capacités étendues telles que la compréhension d'images, la reconnaissance optique de caractères (OCR), l'analyse de graphiques et de tableaux et la synthèse de plusieurs images ou clips vidéo, ce qui le rend parfaitement adapté à une variété d'applications basées sur l'IA. A démontré des gains de performance significatifs dans les benchmarks liés au traitement d'images et de vidéos. Le modèle et l'environnement ont été déployés. Vous pouvez utiliser directement le grand modèle pour la génération d'inférences selon les instructions du didacticiel.
Utilisation directe :https://go.hyper.ai/zN9Bx
LongWriter est un projet open source développé par l'Université Tsinghua qui génère des textes très longs (plus de 10 000 mots) en utilisant un modèle de langage étendu à contexte long (LLM). Ce tutoriel est une démonstration de déploiement en un clic du modèle. Il vous suffit de cloner et de démarrer le conteneur et de copier directement l'adresse API générée pour expérimenter l'inférence du modèle.
Utilisation directe :https://go.hyper.ai/p6SiO
Ensembles de données publiques sélectionnés
1. Ensemble de données de référence de lecture multimodale MRR-Benchmark
Le test de référence de lecture multimodale (MMR) comprend 550 paires de questions-réponses annotées dans 11 tâches différentes couvrant le texte, les polices, les éléments visuels, les cadres de délimitation, les relations spatiales et la vérité fondamentale avec des mesures d'évaluation bien conçues.
Utilisation directe :https://go.hyper.ai/deAmf
2. Ensemble de données d'estimation du diamètre de la pupille EveDentify
L'ensemble de données contient un total de 212 073 images de 51 participants. L'équipe de recherche a utilisé un eye tracker Tobii pour collecter des mesures précises du diamètre de la pupille tout en utilisant une webcam intégrée pour capturer des vidéos faciales. L'ensemble de données vise à combler le manque d'ensembles de données disponibles pour l'estimation du diamètre de la pupille à l'aide d'images de webcam ordinaires.
Utilisation directe :https://go.hyper.ai/iHjxC
Cet ensemble de données contient 11 000 images annotées de routes polonaises, spécialement organisées pour la tâche de détection d'objets. Les données ont été collectées à l’aide de caméras embarquées sur les routes polonaises, principalement à Cracovie. Les images ont capturé une variété de scènes, y compris différents types de routes et diverses conditions d’éclairage (jour et nuit).
Utilisation directe :https://go.hyper.ai/Sl0k5
4. Ensemble de données de détection humaine C2A dans les scénarios de catastrophe
L'ensemble de données C2A (combiné à l'application) contient un total de 10 215 images haute résolution de 4 types de scènes de catastrophe (incendie/fumée, inondation, bâtiment effondré/décombres et accident de la circulation) et 5 catégories de postures humaines (plié, à genoux, couché, assis et debout), avec des résolutions d'image allant de 123 × 152 à 5 184 × 3 456 pixels, et plus de 360 000 instances humaines annotées.
Utilisation directe :https://go.hyper.ai/15dMR
L'ensemble de données contient des images améliorées de 6 maladies cutanées différentes : l'acné, le cancer, l'eczéma, la kératose, les miliums et la rosacée. Chaque catégorie contient 399 images, pour un total de 2 394 images.
Utilisation directe :https://go.hyper.ai/tWO7x
6. Ensemble de données de détection et de segmentation des piétons Penn-Fudan
Cet ensemble de données contient 170 images RVB haute résolution capturées à partir de séquences vidéo, et il y a 0 à 6 cibles piétonnes dans chaque image. La position de chaque piéton est marquée avec précision par une boîte rectangulaire (masque), fournissant des informations sur les coordonnées de la boîte englobante pour faciliter la formation et les tests de détection d'objets.
Utilisation directe :https://go.hyper.ai/1CqaN
7. Ensemble de données hyperspectrales sur les déchets d'équipements électriques de Tecnalia
L'ensemble de données hyperspectrales Tecnalia contient différentes fractions de métaux non ferreux provenant de déchets d'équipements électriques et électroniques, tels que le cuivre, le laiton, l'aluminium, l'acier inoxydable et le cupronickel, et les images contiennent 76 longueurs d'onde uniformément réparties dans la gamme spectrale [415,05 nm, 1008,10 nm].
Utilisation directe :https://go.hyper.ai/1TBGz
8. Prédiction d'accident de voiture Ensemble de données de prédiction ou d'accident de voiture
Cet ensemble de données contient 10 000 images de dashcam, toutes issues de 100 000 vidéos Dashcam. Les images sont séparées de la vidéo à des intervalles de 5 secondes sous forme d'images individuelles, et l'ensemble de données contient deux classes : collision et non-collision. Des annotations sont également fournies dans le fichier xlsx.
Utilisation directe :https://go.hyper.ai/jV1hL
9. Ensemble de données sur les défauts des circuits imprimés PKU-Market-PCB
PKU-Market-PCB est un ensemble de données PCB synthétiques public contenant 1 386 images avec 6 types de défauts (trous qui fuient, morsures de rat, ouvertures, courts-circuits, parasites et cuivre parasite) qui peuvent être utilisés pour les tâches de détection, de classification et d'enregistrement d'images.
Utilisation directe :https://go.hyper.ai/VnbpT
Cet ensemble de données contient 3 types de défauts de surface : taches d'huile, rayures et taches. Il y a 400 images de chaque type de défaut, soit un total de 1,2 000 images. Les défauts ont été créés par l’équipe de recherche pour simuler un environnement industriel. Les images sont collectées par une caméra industrielle avec une résolution de 1920×1080. L'ensemble de données est divisé en formation : validation : test = 6 : 2 : 2, et le format de l'ensemble de données utilise PASCAL VOC.
Utilisation directe :https://go.hyper.ai/K6u2o
Pour plus d'ensembles de données publics, veuillez visiter :
Articles de la communauté
Récemment, lors de l'événement AI for Bioengineering Summer School de l'Université Jiao Tong de Shanghai, le Dr Zhong Bozitao a systématiquement trié son expérience d'apprentissage sous le thème « AlphaFold 3 : principes, applications et perspectives », et a largement trié de nombreux résultats de recherche pertinents de la communauté de recherche scientifique, partageant ses connaissances approfondies sur AlphaFold 3 avec tout le monde. Cet article est un résumé du contenu principal du discours.
Voir le rapport complet :https://go.hyper.ai/Ln2Yv
L’équipe de l’Université Fudan a proposé une nouvelle conception de spectromètre de reconstruction miniaturisé qui combine les avantages des spectromètres traditionnels et des spectromètres de reconstruction informatique. Grâce à un canal de filtre à bande étroite auto-référencé intégré, l'algorithme d'intelligence artificielle peut rechercher simultanément des paramètres spectraux et algorithmiques dans un espace de paramètres de dimension supérieure. Cet article est une interprétation détaillée et un partage du document de recherche.
Voir le rapport complet :https://go.hyper.ai/GEKE4
Le laboratoire d'intelligence artificielle de Shanghai a publié le grand modèle de langage chimique ChemLLM. ChemLLM excelle dans l'exécution de diverses tâches dans la discipline de la chimie grâce à des interactions conversationnelles fluides, en obtenant des performances comparables à celles de GPT-4 sur les tâches principales et en démontrant des performances comparables à celles des LLM de taille similaire dans des scénarios généraux. Cet article est une interprétation détaillée et un partage du document de recherche.
Voir le rapport complet :https://go.hyper.ai/3bdMW
Articles populaires de l'encyclopédie
1. Fusion de tri réciproque RRF
2. Taux d'apprentissage
3. Norme nucléaire
4. Front de Pareto
5. Augmentation des données
Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

Suivi unique des principales conférences universitaires sur l'IA :https://go.hyper.ai/event
Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !
À la semaine prochaine !
À propos d'HyperAI
HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :
* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 300 ensembles de données publiques
* Comprend plus de 400 tutoriels en ligne classiques et populaires
* Interprétation de plus de 100 cas d'articles AI4Science
* Prise en charge de plus de 500 termes de recherche associés
* Hébergement de la première documentation complète d'Apache TVM en Chine
Visitez le site Web officiel pour commencer votre parcours d'apprentissage :