Command Palette
Search for a command to run...
Gemini 1.5 : Déverrouiller la compréhension multimodale à travers des millions de jetons de contexte
Gemini 1.5 : Déverrouiller la compréhension multimodale à travers des millions de jetons de contexte
Gemini Team Google
Résumé
Dans ce rapport, nous présentons la famille de modèles Gemini 1.5, représentant la prochaine génération de modèles multimodaux à haute efficacité de calcul capables de mémoriser et de raisonner sur des informations détaillées provenant de millions de jetons de contexte, y compris plusieurs documents longs et des heures de vidéo et d'audio. La famille comprend deux nouveaux modèles : (1) une version mise à jour du Gemini 1.5 Pro, qui dépasse la version de février dans la grande majorité des capacités et des benchmarks ; (2) le Gemini 1.5 Flash, une variante plus légère conçue pour l'efficacité avec une régression minimale en termes de qualité. Les modèles Gemini 1.5 atteignent un rappel quasi-parfait dans les tâches de récupération à long contexte intermodales, améliorent l'état de l'art en matière de questions-réponses sur documents longs, questions-réponses sur vidéos longues et reconnaissance automatique de la parole à long contexte, et égalent ou surpassent les performances d'avant-garde du Gemini 1.0 Ultra sur un large éventail de benchmarks. En étudiant les limites des capacités à long contexte du Gemini 1.5, nous constatons une amélioration continue dans la prédiction du jeton suivant et un rappel quasi-parfait (>99 %) jusqu'à au moins 10 millions de jetons, ce qui représente un bond générationnel par rapport aux modèles existants tels que Claude 3.0 (200k) et GPT-4 Turbo (128k). Enfin, nous mettons en lumière des cas d'utilisation réels, tels que le Gemini 1.5 collaborant avec des professionnels pour accomplir leurs tâches, réalisant des économies de temps allant de 26 à 75 % dans dix catégories d'emplois différentes, ainsi que des nouvelles capacités surprenantes des grands modèles linguistiques à la frontière ; lorsque fourni avec un manuel grammatical pour le kalamang, une langue comptant moins de 200 locuteurs dans le monde entier, le modèle apprend à traduire l'anglais en kalamang à un niveau comparable à celui d'une personne ayant appris à partir du même contenu.