Command Palette
Search for a command to run...
Gemini : Une Famille de Modèles Multimodaux Très Performants
Gemini : Une Famille de Modèles Multimodaux Très Performants
Gemini Team
Résumé
Ce rapport présente une nouvelle famille de modèles multimodaux, les Gemini, qui démontrent des capacités remarquables dans la compréhension des images, de l'audio, de la vidéo et du texte. La famille Gemini comprend trois tailles : Ultra, Pro et Nano, adaptées à des applications allant des tâches complexes de raisonnement aux cas d'utilisation contraints en mémoire sur appareil. L'évaluation sur un large éventail de benchmarks montre que notre modèle Gemini Ultra le plus performant progresse à l'état de l'art dans 30 des 32 benchmarks examinés — notamment en étant le premier modèle à atteindre une performance équivalente à celle d'un expert humain sur le benchmark bien étudié MMLU (Multi-Modal Language Understanding), et en améliorant l'état de l'art dans chacun des 20 benchmarks multimodaux que nous avons analysés. Nous pensons que les nouvelles capacités de la famille Gemini en matière de raisonnement intermodale et de compréhension linguistique permettront une grande variété d'applications. Nous discutons également de notre approche visant à former et déployer les modèles Gemini de manière responsable auprès des utilisateurs via des services tels que Gemini, Gemini Avancé, Google AI Studio et Cloud Vertex AI.