Command Palette
Search for a command to run...
Gemini 1.5: Die Freischaltung multimodaler Verständnisfähigkeiten bei Millionen von Kontexttoken
Gemini 1.5: Die Freischaltung multimodaler Verständnisfähigkeiten bei Millionen von Kontexttoken
Gemini Team Google
Zusammenfassung
In diesem Bericht stellen wir die Modellfamilie Gemini 1.5 vor, die die nächste Generation hochrechenintensiver multimodaler Modelle darstellt. Diese Modelle sind in der Lage, feingranulare Informationen aus Millionen von Tokens im Kontext zu erinnern und darauf abzuschließen, einschließlich mehrerer langer Dokumente sowie Stunden von Video- und Audiomaterial. Die Familie umfasst zwei neue Modelle: (1) ein aktualisiertes Gemini 1.5 Pro, das die Mehrheit der Fähigkeiten und Benchmarks der Februar-Version übertrifft; (2) Gemini 1.5 Flash, eine leichtgewichtigere Variante, die auf Effizienz optimiert ist und dabei nur minimale Qualitätsverluste aufweist.Die Gemini 1.5-Modelle erreichen nahezu perfekte Erinnerungsleistung bei Aufgaben zur langfristigen Kontextabholung in verschiedenen Modalitäten, verbessern den Stand der Technik bei Fragen zu langen Dokumenten, langen Videos und Spracherkennung mit großem Kontext und erreichen oder übertreffen die Leistung des Gemini 1.0 Ultra bei einer breiten Palette von Benchmarks.Bei der Untersuchung der Grenzen der langfristigen Kontextfähigkeit von Gemini 1.5 finden wir fortgesetzte Verbesserungen bei der Vorhersage des nächsten Tokens sowie nahezu perfekte Abholung (>99 %) bis zu mindestens 10 Mio. Tokens. Dies stellt einen generationalen Sprung gegenüber bestehenden Modellen wie Claude 3.0 (200k) und GPT-4 Turbo (128k) dar.Schließlich heben wir praktische Anwendungsfälle hervor: So arbeitet Gemini 1.5 zusammen mit Fachkräften an deren Aufgaben und erreicht Zeitersparnisse von 26 bis 75 % in zehn verschiedenen Berufsgruppen. Darüber hinaus zeigen wir überraschende neue Fähigkeiten großer Sprachmodelle am technologischen Rand; wenn dem Modell ein Grammatikhandbuch für Kalamang gegeben wird – eine Sprache mit weniger als 200 Sprechern weltweit – lernt es, Englisch in Kalamang zu übersetzen, auf einem ähnlichen Niveau wie eine Person, die sich vom gleichen Inhalt heranbildung hat.