Setzen Sie Phi 3.5 Mini+vision Mit Einem Klick Ein! Der Multimodale Lese-Benchmark-Datensatz MRR-Benchmark Ist Online, Einschließlich 550 Frage-Antwort-Paaren

Das kleine Model ist wieder aufgerollt! Microsoft veröffentlicht drei Open-Source-Ankündigungen! Phi 3.5 veröffentlichte drei Modelle für unterschiedliche Aufgaben gleichzeitig und übertraf andere ähnliche Modelle bei mehreren Benchmarks.
Darunter ist Phi-3.5-mini-instruct speziell für Geräte mit begrenztem Speicher oder begrenzter Rechenleistung erhältlich. Es kann selbst bei kleinen Parametern leistungsstarke Denkfähigkeiten demonstrieren und Aufgaben wie Codegenerierung und Mehrsprachenverständnis problemlos bewältigen. Phi-3.5-vision-instruct ist ein führendes Gerät im multimodalen Bereich, das Text- und Bildinformationen gleichzeitig verarbeiten kann und Aufgaben wie Bildverständnis und Videozusammenfassung problemlos bewältigt.
HyperAI Super Neural Network hat jetzt die Tutorials zur Modellbereitstellung für die Mini-Version und die Vision-Version veröffentlicht. Scrollen Sie nach unten, um den Link zu erhalten~
Vom 2. bis 6. September gibt es Updates auf der offiziellen Website von hyper.ai:
* Auswahl an hochwertigen Tutorials: 3
* Hochwertige öffentliche Datensätze: 10
* Community-Artikelauswahl: 3 Artikel
* Beliebte Enzyklopädieeinträge: 5
* Top-Konferenzen mit Deadline im September: 5
Besuchen Sie die offizielle Website:hyper.ai
Ich möchte Ihnen eine Online-Aktivität zum wissenschaftlichen Austausch empfehlen.Ziyi Zhou, Postdoktorand an der Shanghai Jiao Tong University, wird einen Vortrag mit dem Titel „Small-sample learning methods for protein language models“ halten.Bringen Sie praktische Informationen zum Austausch mit, klicken Sie, um einen Termin zum Ansehen zu vereinbaren ⬇️
Ausgewählte öffentliche Tutorials
1. Ein-Klick-Bereitstellung von Phi-3.5-mini-instruct
Phi-3.5-mini-instruct unterstützt eine Kontextlänge von 128.000 Token und eignet sich für Aufgaben wie Codegenerierung, mathematische Problemlösung und logikbasiertes Denken. Das Modell bietet gute Leistungen bei mehrsprachigen Dialogaufgaben und Aufgaben mit mehreren Turns und übertrifft andere Modelle desselben Niveaus im RepoQA-Benchmark. Dieses Tutorial ist eine Ein-Klick-Bereitstellungsdemo des Modells. Sie müssen nur den Container klonen und starten und die generierte API-Adresse direkt kopieren, um die Inferenz des Modells zu erleben.
Direkte Verwendung:https://go.hyper.ai/F7smR
2. Ein-Klick-Bereitstellung von Phi-3.5-vision-instruct
Das Phi-3.5-Vision-Instruct-Modell verfügt über umfangreiche Funktionen wie Bildverständnis, optische Zeichenerkennung (OCR), Diagramm- und Tabellenanalyse sowie Zusammenfassung mehrerer Bilder oder Videoclips, wodurch es sich gut für eine Vielzahl KI-gesteuerter Anwendungen eignet. Demonstrierte signifikante Leistungssteigerungen in Benchmarks im Zusammenhang mit der Bild- und Videoverarbeitung. Das Modell und die Umgebung wurden bereitgestellt. Sie können das große Modell gemäß den Anweisungen des Tutorials direkt zur Inferenzgenerierung verwenden.
Direkte Verwendung:https://go.hyper.ai/zN9Bx
LongWriter ist ein Open-Source-Projekt der Tsinghua-Universität, das mithilfe eines Long-Context Large Language Model (LLM) sehr lange Texte (mehr als 10.000 Wörter) generiert. Dieses Tutorial ist eine Ein-Klick-Bereitstellungsdemo des Modells. Sie müssen nur den Container klonen und starten und die generierte API-Adresse direkt kopieren, um die Inferenz des Modells zu erleben.
Direkte Verwendung:https://go.hyper.ai/p6SiO
Ausgewählte öffentliche Datensätze
1. MRR-Benchmark Multimodaler Lese-Benchmark-Datensatz
Der Multimodal Reading (MMR)-Benchmark umfasst 550 kommentierte Frage-Antwort-Paare in 11 verschiedenen Aufgaben, die Text, Schriftarten, visuelle Elemente, Begrenzungsrahmen, räumliche Beziehungen und Grundwahrheiten mit gut konzipierten Bewertungsmetriken abdecken.
Direkte Verwendung:https://go.hyper.ai/deAmf
2. EveDentify-Datensatz zur Schätzung des Pupillendurchmessers
Der Datensatz enthält insgesamt 212.073 Bilder von 51 Teilnehmern. Das Forschungsteam verwendete einen Tobii-Eyetracker, um genaue Messungen des Pupillendurchmessers zu erfassen, und nutzte eine eingebaute Webcam, um Gesichtsvideos aufzunehmen. Der Datensatz soll den Mangel an verfügbaren Datensätzen zur Schätzung des Pupillendurchmessers mithilfe gewöhnlicher Webcam-Bilder beheben.
Direkte Verwendung:https://go.hyper.ai/iHjxC
Dieser Datensatz enthält 11.000 kommentierte Bilder polnischer Straßen, die speziell für die Objekterkennungsaufgabe kuratiert wurden. Die Daten wurden mithilfe von an Autos montierten Kameras auf polnischen Straßen, hauptsächlich in Krakau, erfasst. Die Bilder zeigten unterschiedliche Szenen, darunter verschiedene Straßentypen und verschiedene Lichtverhältnisse (Tag und Nacht).
Direkte Verwendung:https://go.hyper.ai/Sl0k5
4. C2A-Datensatz zur Erkennung von Menschen in Katastrophenszenarien
Der C2A-Datensatz (kombiniert zur Anwendung) enthält insgesamt 10.215 hochauflösende Bilder von 4 Katastrophenszenentypen (Feuer/Rauch, Überschwemmung, eingestürztes Gebäude/Trümmer und Verkehrsunfall) und 5 Kategorien menschlicher Körperhaltung (bücken, knien, liegen, sitzen und aufrecht stehen) mit Bildauflösungen von 123 × 152 bis 5184 × 3456 Pixeln und mehr als 360.000 annotierten menschlichen Fällen.
Direkte Verwendung:https://go.hyper.ai/15dMR
5. Hautzustandsdatensatz 6 Hautzustandsdatensätze
Der Datensatz enthält verbesserte Bilder von 6 verschiedenen Hautkrankheiten: Akne, Krebs, Ekzeme, Keratose, Milien und Rosazea. Jede Kategorie enthält 399 Bilder, also insgesamt 2.394 Bilder.
Direkte Verwendung:https://go.hyper.ai/tWO7x
6. Penn-Fudan-Datensatz zur Fußgängererkennung und -segmentierung
Dieser Datensatz enthält 170 hochauflösende RGB-Bilder, die aus Videosequenzen aufgenommen wurden, und in jedem Bild sind 0 bis 6 Fußgängerziele vorhanden. Die Position jedes Fußgängers wird durch ein rechteckiges Kästchen (Maske) genau markiert, wodurch Informationen zu den Koordinaten des Begrenzungsrahmens bereitgestellt werden, um das Training und Testen der Objekterkennung zu erleichtern.
Direkte Verwendung:https://go.hyper.ai/1CqaN
7. Hyperspektraler Datensatz zu Elektrogeräteabfällen von Tecnalia
Der hyperspektrale Datensatz von Tecnalia enthält verschiedene Nichteisenmetallfraktionen aus Elektro- und Elektronikaltgeräten wie Kupfer, Messing, Aluminium, Edelstahl und Kupfernickel. Die Bilder enthalten 76 gleichmäßig verteilte Wellenlängen im Spektralbereich [415,05 nm, 1008,10 nm].
Direkte Verwendung:https://go.hyper.ai/1TBGz
8. Autounfallvorhersage Autounfall- oder Vorhersagedatensatz
Dieser Datensatz enthält 10.000 Dashcam-Bilder, die alle aus 100.000 Dashcam-Videos stammen. Die Bilder werden in 5-Sekunden-Intervallen als einzelne Frames vom Video getrennt und der Datensatz enthält zwei Klassen: Kollision und keine Kollision. Anmerkungen werden auch in der XLSX-Datei bereitgestellt.
Direkte Verwendung:https://go.hyper.ai/jV1hL
9. PKU-Market-PCB Leiterplattendefekt-Datensatz
PKU-Market-PCB ist ein öffentlicher synthetischer PCB-Datensatz mit 1.386 Bildern mit 6 Arten von Defekten (undichte Löcher, Rattenbisse, Unterbrechungen, Kurzschlüsse, Streuleitungen und Streukupfer), der für Aufgaben zur Bilderkennung, Klassifizierung und Registrierung verwendet werden kann.
Direkte Verwendung:https://go.hyper.ai/VnbpT
Dieser Datensatz enthält drei Arten von Oberflächendefekten: Ölflecken, Kratzer und Flecken. Es gibt 400 Bilder von jedem Defekttyp, insgesamt 1,2.000 Bilder. Die Defekte wurden vom Forschungsteam erzeugt, um eine industrielle Umgebung zu simulieren. Die Bilder werden von einer Industriekamera mit einer Auflösung von 1920×1080 aufgenommen. Der Datensatz ist in Training: Validierung: Test = 6:2:2 unterteilt und das Datensatzformat verwendet PASCAL VOC.
Direkte Verwendung:https://go.hyper.ai/K6u2o
Weitere öffentliche Datensätze finden Sie unter:
Community-Artikel
Kürzlich hat Dr. Zhong Bozitao bei der Sommerschule „AI for Bioengineering“ der Shanghai Jiao Tong University seine Lernerfahrungen unter dem Motto „AlphaFold 3: Prinzipien, Anwendungen und Perspektiven“ systematisch zusammengefasst und zahlreiche relevante Forschungsergebnisse aus der wissenschaftlichen Forschungsgemeinschaft umfassend analysiert und seine tiefgreifenden Erkenntnisse zu AlphaFold 3 mit allen geteilt. Dieser Artikel ist eine Zusammenfassung der Kerninhalte der Rede.
Den vollständigen Bericht ansehen:https://go.hyper.ai/Ln2Yv
Das Team der Fudan-Universität schlug ein neues miniaturisiertes Rekonstruktionsspektrometer-Design vor, das die Vorteile herkömmlicher Spektrometer und rechnergestützter Rekonstruktionsspektrometer kombiniert. Durch einen integrierten selbstreferenzierenden Schmalbandfilterkanal kann der Algorithmus der künstlichen Intelligenz gleichzeitig nach spektralen und algorithmischen Parametern in einem höherdimensionalen Parameterraum suchen. Dieser Artikel ist eine detaillierte Interpretation und Weitergabe des Forschungspapiers.
Den vollständigen Bericht ansehen:https://go.hyper.ai/GEKE4
Das Shanghai Artificial Intelligence Laboratory hat das chemische Großsprachenmodell ChemLLM veröffentlicht. ChemLLM zeichnet sich durch die Durchführung verschiedener Aufgaben im Fach Chemie durch flüssige Konversationsinteraktionen aus, ist bei Kernaufgaben auf Augenhöhe mit GPT-4 und zeigt in allgemeinen Szenarien eine vergleichbare Leistung wie LLMs ähnlicher Größe. Dieser Artikel ist eine detaillierte Interpretation und Weitergabe des Forschungspapiers.
Den vollständigen Bericht ansehen:https://go.hyper.ai/3bdMW
Beliebte Enzyklopädieartikel
1. Reziproke Sortierfusion RRF
2. Lernrate
3. Nukleare Norm
4. Pareto-Front
5. Datenerweiterung
Hier sind Hunderte von KI-bezogenen Begriffen zusammengestellt, die Ihnen helfen sollen, „künstliche Intelligenz“ zu verstehen:

Zentrale Verfolgung der wichtigsten wissenschaftlichen KI-Konferenzen:https://go.hyper.ai/event
Das Obige ist der gesamte Inhalt der Auswahl des Herausgebers dieser Woche. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Artikel einreichen!
Bis nächste Woche!
Über HyperAI
HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:
* Bereitstellung inländischer beschleunigter Download-Knoten für über 1300 öffentliche Datensätze
* Enthält über 400 klassische und beliebte Online-Tutorials
* Interpretation von über 100 AI4Science-Papierfällen
* Unterstützt die Suche nach über 500 verwandten Begriffen
* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China
Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen: