HyperAI

Setzen Sie Phi 3.5 Mini+vision Mit Einem Klick Ein! Der Multimodale Lese-Benchmark-Datensatz MRR-Benchmark Ist Online, Einschließlich 550 Frage-Antwort-Paaren

特色图像

‍‍Das kleine Model ist wieder aufgerollt! Microsoft veröffentlicht drei Open-Source-Ankündigungen! Phi 3.5 veröffentlichte drei Modelle für unterschiedliche Aufgaben gleichzeitig und übertraf andere ähnliche Modelle bei mehreren Benchmarks.

Darunter ist Phi-3.5-mini-instruct speziell für Geräte mit begrenztem Speicher oder begrenzter Rechenleistung erhältlich. Es kann selbst bei kleinen Parametern leistungsstarke Denkfähigkeiten demonstrieren und Aufgaben wie Codegenerierung und Mehrsprachenverständnis problemlos bewältigen. Phi-3.5-vision-instruct ist ein führendes Gerät im multimodalen Bereich, das Text- und Bildinformationen gleichzeitig verarbeiten kann und Aufgaben wie Bildverständnis und Videozusammenfassung problemlos bewältigt.

HyperAI Super Neural Network hat jetzt die Tutorials zur Modellbereitstellung für die Mini-Version und die Vision-Version veröffentlicht. Scrollen Sie nach unten, um den Link zu erhalten~

Vom 2. bis 6. September gibt es Updates auf der offiziellen Website von hyper.ai:

* Auswahl an hochwertigen Tutorials: 3

* Hochwertige öffentliche Datensätze: 10

* Community-Artikelauswahl: 3 Artikel

* Beliebte Enzyklopädieeinträge: 5

* Top-Konferenzen mit Deadline im September: 5

Besuchen Sie die offizielle Website:hyper.ai

Ich möchte Ihnen eine Online-Aktivität zum wissenschaftlichen Austausch empfehlen.Ziyi Zhou, Postdoktorand an der Shanghai Jiao Tong University, wird einen Vortrag mit dem Titel „Small-sample learning methods for protein language models“ halten.Bringen Sie praktische Informationen zum Austausch mit, klicken Sie, um einen Termin zum Ansehen zu vereinbaren ⬇️

https://hdxu.cn/6Bjom

Ausgewählte öffentliche Tutorials

1. Ein-Klick-Bereitstellung von Phi-3.5-mini-instruct

Phi-3.5-mini-instruct unterstützt eine Kontextlänge von 128.000 Token und eignet sich für Aufgaben wie Codegenerierung, mathematische Problemlösung und logikbasiertes Denken. Das Modell bietet gute Leistungen bei mehrsprachigen Dialogaufgaben und Aufgaben mit mehreren Turns und übertrifft andere Modelle desselben Niveaus im RepoQA-Benchmark. Dieses Tutorial ist eine Ein-Klick-Bereitstellungsdemo des Modells. Sie müssen nur den Container klonen und starten und die generierte API-Adresse direkt kopieren, um die Inferenz des Modells zu erleben.

Direkte Verwendung:https://go.hyper.ai/F7smR

2. Ein-Klick-Bereitstellung von Phi-3.5-vision-instruct

Das Phi-3.5-Vision-Instruct-Modell verfügt über umfangreiche Funktionen wie Bildverständnis, optische Zeichenerkennung (OCR), Diagramm- und Tabellenanalyse sowie Zusammenfassung mehrerer Bilder oder Videoclips, wodurch es sich gut für eine Vielzahl KI-gesteuerter Anwendungen eignet. Demonstrierte signifikante Leistungssteigerungen in Benchmarks im Zusammenhang mit der Bild- und Videoverarbeitung. Das Modell und die Umgebung wurden bereitgestellt. Sie können das große Modell gemäß den Anweisungen des Tutorials direkt zur Inferenzgenerierung verwenden.

Direkte Verwendung:https://go.hyper.ai/zN9Bx

3. Online-Tutorial | Erstellen Sie einen spannenden Roman mit 10.000 Wörtern in 1 Minute. LongWriter-glm4-9b überwindet den Engpass bei der Ausgabe langer Texte

LongWriter ist ein Open-Source-Projekt der Tsinghua-Universität, das mithilfe eines Long-Context Large Language Model (LLM) sehr lange Texte (mehr als 10.000 Wörter) generiert. Dieses Tutorial ist eine Ein-Klick-Bereitstellungsdemo des Modells. Sie müssen nur den Container klonen und starten und die generierte API-Adresse direkt kopieren, um die Inferenz des Modells zu erleben.

Direkte Verwendung:https://go.hyper.ai/p6SiO

Ausgewählte öffentliche Datensätze

1. MRR-Benchmark Multimodaler Lese-Benchmark-Datensatz

Der Multimodal Reading (MMR)-Benchmark umfasst 550 kommentierte Frage-Antwort-Paare in 11 verschiedenen Aufgaben, die Text, Schriftarten, visuelle Elemente, Begrenzungsrahmen, räumliche Beziehungen und Grundwahrheiten mit gut konzipierten Bewertungsmetriken abdecken.

Direkte Verwendung:https://go.hyper.ai/deAmf

2. EveDentify-Datensatz zur Schätzung des Pupillendurchmessers

Der Datensatz enthält insgesamt 212.073 Bilder von 51 Teilnehmern. Das Forschungsteam verwendete einen Tobii-Eyetracker, um genaue Messungen des Pupillendurchmessers zu erfassen, und nutzte eine eingebaute Webcam, um Gesichtsvideos aufzunehmen. Der Datensatz soll den Mangel an verfügbaren Datensätzen zur Schätzung des Pupillendurchmessers mithilfe gewöhnlicher Webcam-Bilder beheben.

Direkte Verwendung:https://go.hyper.ai/iHjxC

3. Erkennung von Verkehrsobjekten auf der Straße Polnischer Datensatz zur Erkennung von Verkehrsobjekten auf der Straße

Dieser Datensatz enthält 11.000 kommentierte Bilder polnischer Straßen, die speziell für die Objekterkennungsaufgabe kuratiert wurden. Die Daten wurden mithilfe von an Autos montierten Kameras auf polnischen Straßen, hauptsächlich in Krakau, erfasst. Die Bilder zeigten unterschiedliche Szenen, darunter verschiedene Straßentypen und verschiedene Lichtverhältnisse (Tag und Nacht).

Direkte Verwendung:https://go.hyper.ai/Sl0k5

4. C2A-Datensatz zur Erkennung von Menschen in Katastrophenszenarien

Der C2A-Datensatz (kombiniert zur Anwendung) enthält insgesamt 10.215 hochauflösende Bilder von 4 Katastrophenszenentypen (Feuer/Rauch, Überschwemmung, eingestürztes Gebäude/Trümmer und Verkehrsunfall) und 5 Kategorien menschlicher Körperhaltung (bücken, knien, liegen, sitzen und aufrecht stehen) mit Bildauflösungen von 123 × 152 bis 5184 × 3456 Pixeln und mehr als 360.000 annotierten menschlichen Fällen.

Direkte Verwendung:https://go.hyper.ai/15dMR

5. Hautzustandsdatensatz 6 Hautzustandsdatensätze

Der Datensatz enthält verbesserte Bilder von 6 verschiedenen Hautkrankheiten: Akne, Krebs, Ekzeme, Keratose, Milien und Rosazea. Jede Kategorie enthält 399 Bilder, also insgesamt 2.394 Bilder.

Direkte Verwendung:https://go.hyper.ai/tWO7x

6. Penn-Fudan-Datensatz zur Fußgängererkennung und -segmentierung

Dieser Datensatz enthält 170 hochauflösende RGB-Bilder, die aus Videosequenzen aufgenommen wurden, und in jedem Bild sind 0 bis 6 Fußgängerziele vorhanden. Die Position jedes Fußgängers wird durch ein rechteckiges Kästchen (Maske) genau markiert, wodurch Informationen zu den Koordinaten des Begrenzungsrahmens bereitgestellt werden, um das Training und Testen der Objekterkennung zu erleichtern.

Direkte Verwendung:https://go.hyper.ai/1CqaN

7. Hyperspektraler Datensatz zu Elektrogeräteabfällen von Tecnalia

Der hyperspektrale Datensatz von Tecnalia enthält verschiedene Nichteisenmetallfraktionen aus Elektro- und Elektronikaltgeräten wie Kupfer, Messing, Aluminium, Edelstahl und Kupfernickel. Die Bilder enthalten 76 gleichmäßig verteilte Wellenlängen im Spektralbereich [415,05 nm, 1008,10 nm].

Direkte Verwendung:https://go.hyper.ai/1TBGz

8. Autounfallvorhersage Autounfall- oder Vorhersagedatensatz

Dieser Datensatz enthält 10.000 Dashcam-Bilder, die alle aus 100.000 Dashcam-Videos stammen. Die Bilder werden in 5-Sekunden-Intervallen als einzelne Frames vom Video getrennt und der Datensatz enthält zwei Klassen: Kollision und keine Kollision. Anmerkungen werden auch in der XLSX-Datei bereitgestellt.

Direkte Verwendung:https://go.hyper.ai/jV1hL

9. PKU-Market-PCB Leiterplattendefekt-Datensatz

PKU-Market-PCB ist ein öffentlicher synthetischer PCB-Datensatz mit 1.386 Bildern mit 6 Arten von Defekten (undichte Löcher, Rattenbisse, Unterbrechungen, Kurzschlüsse, Streuleitungen und Streukupfer), der für Aufgaben zur Bilderkennung, Klassifizierung und Registrierung verwendet werden kann.

Direkte Verwendung:https://go.hyper.ai/VnbpT

10. PKU-Market-Phone Datensatz zur Segmentierung von Oberflächendefekten auf Mobiltelefonbildschirmen

Dieser Datensatz enthält drei Arten von Oberflächendefekten: Ölflecken, Kratzer und Flecken. Es gibt 400 Bilder von jedem Defekttyp, insgesamt 1,2.000 Bilder. Die Defekte wurden vom Forschungsteam erzeugt, um eine industrielle Umgebung zu simulieren. Die Bilder werden von einer Industriekamera mit einer Auflösung von 1920×1080 aufgenommen. Der Datensatz ist in Training: Validierung: Test = 6:2:2 unterteilt und das Datensatzformat verwendet PASCAL VOC.

Direkte Verwendung:https://go.hyper.ai/K6u2o

Weitere öffentliche Datensätze finden Sie unter:

https://hyper.ai/datasets

Community-Artikel

1. Eine vollständige Demontage von AlphaFold 3, Zhong Bozitao von der Shanghai Jiaotong University: Daten optimal nutzen, um alle biomolekularen Strukturen mit atomarer Präzision vorherzusagen, aber es ist nicht perfekt

Kürzlich hat Dr. Zhong Bozitao bei der Sommerschule „AI for Bioengineering“ der Shanghai Jiao Tong University seine Lernerfahrungen unter dem Motto „AlphaFold 3: Prinzipien, Anwendungen und Perspektiven“ systematisch zusammengefasst und zahlreiche relevante Forschungsergebnisse aus der wissenschaftlichen Forschungsgemeinschaft umfassend analysiert und seine tiefgreifenden Erkenntnisse zu AlphaFold 3 mit allen geteilt. Dieser Artikel ist eine Zusammenfassung der Kerninhalte der Rede.

Den vollständigen Bericht ansehen:https://go.hyper.ai/Ln2Yv

2. Titelartikel der Proceedings of the National Academy of Sciences! Chinesisches Team veröffentlicht KI-adaptives Mikrospektrometer, das auf Waferebene produziert werden kann

Das Team der Fudan-Universität schlug ein neues miniaturisiertes Rekonstruktionsspektrometer-Design vor, das die Vorteile herkömmlicher Spektrometer und rechnergestützter Rekonstruktionsspektrometer kombiniert. Durch einen integrierten selbstreferenzierenden Schmalbandfilterkanal kann der Algorithmus der künstlichen Intelligenz gleichzeitig nach spektralen und algorithmischen Parametern in einem höherdimensionalen Parameterraum suchen. Dieser Artikel ist eine detaillierte Interpretation und Weitergabe des Forschungspapiers.

Den vollständigen Bericht ansehen:https://go.hyper.ai/GEKE4

3. Das Shanghai AI Lab hat ChemLLM veröffentlicht, das 7 Millionen Frage-und-Antwort-Daten umfasst und über professionelle Funktionen verfügt, die mit denen von GPT-4 vergleichbar sind.

Das Shanghai Artificial Intelligence Laboratory hat das chemische Großsprachenmodell ChemLLM veröffentlicht. ChemLLM zeichnet sich durch die Durchführung verschiedener Aufgaben im Fach Chemie durch flüssige Konversationsinteraktionen aus, ist bei Kernaufgaben auf Augenhöhe mit GPT-4 und zeigt in allgemeinen Szenarien eine vergleichbare Leistung wie LLMs ähnlicher Größe. Dieser Artikel ist eine detaillierte Interpretation und Weitergabe des Forschungspapiers.

Den vollständigen Bericht ansehen:https://go.hyper.ai/3bdMW

Beliebte Enzyklopädieartikel

1. Reziproke Sortierfusion RRF

2. Lernrate

3. Nukleare Norm

4. Pareto-Front

5. Datenerweiterung

Hier sind Hunderte von KI-bezogenen Begriffen zusammengestellt, die Ihnen helfen sollen, „künstliche Intelligenz“ zu verstehen:

https://go.hyper.ai/wiki

Zentrale Verfolgung der wichtigsten wissenschaftlichen KI-Konferenzen:https://go.hyper.ai/event

Das Obige ist der gesamte Inhalt der Auswahl des Herausgebers dieser Woche. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Artikel einreichen!

Bis nächste Woche!

Über HyperAI

HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:

* Bereitstellung inländischer beschleunigter Download-Knoten für über 1300 öffentliche Datensätze

* Enthält über 400 klassische und beliebte Online-Tutorials

* Interpretation von über 100 AI4Science-Papierfällen

* Unterstützt die Suche nach über 500 verwandten Begriffen

* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China

Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen:

https://hyper.ai