HyperAIHyperAI

Command Palette

Search for a command to run...

Florence : Un Nouveau Modèle de Fondation pour la Vision par Ordinateur

Résumé

La compréhension visuelle automatisée de notre monde diversifié et ouvert exige que les modèles de vision par ordinateur généralisent bien avec un minimum d'adaptation pour des tâches spécifiques, de manière similaire à la vision humaine. Les modèles fondamentaux de vision par ordinateur, qui sont formés sur des ensembles de données diversifiés et à grande échelle et peuvent être adaptés à une large gamme de tâches en aval, sont essentiels pour réaliser cette mission et résoudre des applications réelles de vision par ordinateur. Bien que les modèles fondamentaux existants comme CLIP, ALIGN et Wu Dao 2.0 se concentrent principalement sur l'association d'images et de représentations textuelles à une représentation partagée intermodale, nous présentons un nouveau modèle fondamental de vision par ordinateur, Florence, qui vise à étendre les représentations du grossier (scène) au fin (objet), du statique (images) au dynamique (vidéos), et du RGB aux multiples modalités (légende, profondeur). En intégrant des représentations visuelles-langage universelles issues de données image-texte à l'échelle du Web, notre modèle Florence peut être facilement adapté à diverses tâches de vision par ordinateur, telles que la classification, la recherche d'images, la détection d'objets, le Q&A visuel (VQA), la génération de légendes d'images, la recherche vidéo et la reconnaissance d'actions. De plus, Florence montre des performances exceptionnelles dans plusieurs types d'apprentissage par transfert : l'ajustement fin pleinement échantillonné (fully sampled fine-tuning), le sondage linéaire (linear probing), le transfert avec peu d'exemples (few-shot transfer) et le transfert sans exemple pour des images et objets inédits (zero-shot transfer). Toutes ces propriétés sont cruciales pour que notre modèle fondamental de vision serve des tâches visuelles générales. Florence obtient des résultats nouveaux et meilleurs que l'état actuel de l'art dans la majorité des 44 benchmarks représentatifs, notamment une précision zéro-shot top-1 de 83,74 % et une précision top-5 de 97,18 % sur ImageNet-1K, un mAP de 62,4 sur COCO après ajustement fin, 80,36 % sur VQA et 87,8 % sur Kinetics-600.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp