vor 8 Monaten

Hugo Laurençon Lucile Saulnier Léo Tronchon Stas Bekman Amanpreet Singh Anton Lozhkov Thomas Wang Siddharth Karamcheti Alexander M. Rush Douwe Kiela

Zusammenfassung

Große multimodale Modelle, die auf natürlichen Dokumenten trainiert wurden, in denen Bilder und Text abwechseln, übertreffen Modelle, die auf Bild-Text-Paaren trainiert wurden, bei verschiedenen multimodalen Benchmarks. Allerdings sind die Datensätze, die zur Ausbildung dieser Modelle verwendet wurden, nicht veröffentlicht worden, und der Sammelprozess wurde nicht vollständig spezifiziert. Wir stellen den OBELICS-Datensatz vor, einen offenen, webmasstabigen gefilterten Datensatz von abwechselnden Bild-Text-Dokumenten, der 141 Millionen Webseiten aus Common Crawl (Common Crawl), 353 Millionen assoziierte Bilder und 115 Milliarden Texttokens umfasst. Wir beschreiben den Prozess der Datensatz-Erstellung, präsentieren umfassende Filterregeln und liefern eine Analyse des Inhalts des Datensatzes. Um die Machbarkeit von OBELICS zu demonstrieren, trainieren wir visuelle und sprachliche Modelle mit 9 Milliarden und 80 Milliarden Parametern, die IDEFICS genannt werden, und erzielen wettbewerbsfähige Leistungen bei verschiedenen multimodalen Benchmarks. Wir veröffentlichen unseren Datensatz sowie unsere Modelle und Code.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Hugo Laurençon Lucile Saulnier Léo Tronchon Stas Bekman Amanpreet Singh Anton Lozhkov Thomas Wang Siddharth Karamcheti Alexander M. Rush Douwe Kiela

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Hugo Laurençon Lucile Saulnier Léo Tronchon Stas Bekman Amanpreet Singh Anton Lozhkov Thomas Wang Siddharth Karamcheti Alexander M. Rush Douwe Kiela

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

OBELICS: Ein offener, webbasiert gefilterter Datensatz von überlappenden Bild-Text-Dokumenten

Hugo Laurençon Lucile Saulnier Léo Tronchon Stas Bekman Amanpreet Singh Anton Lozhkov Thomas Wang Siddharth Karamcheti Alexander M. Rush Douwe Kiela2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OBELICS: Ein offener, webbasiert gefilterter Datensatz von überlappenden Bild-Text-Dokumenten

Hugo Laurençon Lucile Saulnier Léo Tronchon Stas Bekman Amanpreet Singh Anton Lozhkov Thomas Wang Siddharth Karamcheti Alexander M. Rush Douwe Kiela2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OBELICS: Ein offener, webbasiert gefilterter Datensatz von überlappenden Bild-Text-Dokumenten

Hugo Laurençon Lucile Saulnier Léo Tronchon Stas Bekman Amanpreet Singh Anton Lozhkov Thomas Wang Siddharth Karamcheti Alexander M. Rush Douwe Kiela2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Hugo Laurençon Lucile Saulnier Léo Tronchon Stas Bekman Amanpreet Singh Anton Lozhkov Thomas Wang Siddharth Karamcheti Alexander M. Rush Douwe Kiela

Hugo Laurençon Lucile Saulnier Léo Tronchon Stas Bekman Amanpreet Singh Anton Lozhkov Thomas Wang Siddharth Karamcheti Alexander M. Rush Douwe Kiela

Hugo Laurençon Lucile Saulnier Léo Tronchon Stas Bekman Amanpreet Singh Anton Lozhkov Thomas Wang Siddharth Karamcheti Alexander M. Rush Douwe Kiela