Meilleur Article Étudiant Au CVPR ! Un Grand Ensemble De Données De 10 Millions D'images Et Plus De 450 000 Espèces, Le Modèle Multimodal BioCLIP Permet Un Apprentissage Sans Prise De Vue

Contrairement au domaine académique traditionnel qui accorde une grande importance à la publication de revues, dans le monde informatique, en particulier dans les domaines de l'apprentissage automatique, de la vision par ordinateur, de l'intelligence artificielle, etc., les conférences de haut niveau sont reines. D’innombrables « directions de recherche brûlantes » et « méthodes innovantes » en découleront.
En tant que l'une des trois conférences les plus influentes sur le plan académique dans le domaine de la vision par ordinateur et même de l'intelligence artificielle, la Conférence internationale sur la vision par ordinateur et la reconnaissance de formes (CVPR) de cette année a battu des records précédents en termes d'échelle de conférence et de nombre d'articles acceptés.

Selon la dernière annonce officielle du CVPR,CVPR 2024 est devenue la conférence la plus importante et la plus fréquentée de l'histoire de la conférence.Au 19 juin, le nombre de participants sur place a dépassé les 12 000.

De plus, en tant qu'événement de premier plan en matière de vision par ordinateur, le CVPR accepte chaque année les dernières recherches dans le domaine visuel actuel. Parmi les 11 532 articles valides soumis cette année, 2 719 articles ont été acceptés, par rapport au CVPR 2023.Le nombre d'articles reçus a augmenté de 20,6%, tandis que le taux d'acceptation a diminué de 2,2%.Ces données montrent que la popularité, la concurrence et la qualité des articles gagnants du CVPR 2024 ont augmenté.

Au petit matin du 20 juin, heure de Pékin, le CVPR 2024 a officiellement annoncé le meilleur article et les autres prix de cette session. Selon les statistiques, un total de 10 articles ont remporté des prix.Parmi eux, il y a 2 meilleurs articles, 2 meilleurs articles d'étudiants, 2 nominations pour les meilleurs articles et 4 nominations pour les meilleurs articles d'étudiants.

dans,« BIoCLIP : un modèle de fondation de vision pour l’arbre de vie » a été nommé meilleur article étudiant.À cet égard, Sara Beery, professeure adjointe au Laboratoire d'informatique et d'intelligence artificielle du MIT, a déclaré que les auteurs et l'équipe étaient des gagnants « bien mérités », et le premier auteur de l'article, Samuel Stevens, a été le premier à exprimer sa gratitude sur la plateforme.

HyperAI interprétera de manière exhaustive « BIoCLIP : un modèle de fondation de vision pour l'arbre de vie » à partir des aspects de l'ensemble de données, de l'architecture du modèle, des performances du modèle, etc., et résumera les autres réalisations de Sam Stevens pour tout le monde.
Adresse de téléchargement :
https://arxiv.org/pdf/2311.18803
Création de l'ensemble de données d'images biologiques le plus vaste et le plus diversifié
Actuellement, le plus grand ensemble de données d’images biologiques pour l’apprentissage automatique est iNat21, qui contient 2,7 millions d’images et couvre 10 000 espèces. Bien que l'étendue de la classification d'iNat21 ait été grandement améliorée par rapport aux ensembles de données du domaine général tels qu'ImageNet-1k, 10 000 espèces sont encore rares en biologie. L'Union internationale pour la conservation de la nature (UICN) a recensé plus de 2 millions d'espèces connues en 2022, dont plus de 10 000 espèces d'oiseaux et de reptiles seulement.
Pour résoudre le problème des restrictions de catégories d’espèces dans les ensembles de données d’images biologiques,Les chercheurs ont construit un ensemble de données appelé TreeOfLife-10M contenant 10 millions d’images.Couvrant plus de 450 000 espèces, il a réalisé une avancée révolutionnaire en termes de taille des ensembles de données et de diversité des espèces.

L'ensemble de données combine des images biologiques d'iNaturalist, de BIOSCAN-1M et de l'Encyclopedia of Life (EOL).

En plus des 10 000 catégories d'espèces couvertes par iNat21, les chercheurs ont téléchargé 6,6 millions d'images d'EOL pour étendre TreeOfLife-10M afin de couvrir 440 000 taxons supplémentaires. Parallèlement, pour aider le modèle de base à apprendre des représentations visuelles extrêmement fines des insectes, les chercheurs ont également incorporé BIOSCAN-1M, un ensemble de données récent contenant 1 million d'images d'insectes de laboratoire, couvrant 494 familles différentes et 7 831 classifications d'espèces.
Adresse de téléchargement de TreeOfLife-10M :
https://go.hyper.ai/Gliol
Modèle multimodal BioCLIP : Améliorer les capacités de généralisation basées sur CLIP
Comparé aux tâches générales, l’espace d’étiquetage de la vision par ordinateur biologique est plus riche. Non seulement le nombre d’annotations de classification est énorme, mais les annotations sont également interconnectées dans le système de classification hiérarchique. Cela pose sans aucun doute d’énormes défis pour la formation de modèles de base avec une couverture d’espèces élevée et de fortes capacités de généralisation.
S'appuyant sur des centaines d'années d'expérience en recherche biologique, les chercheurs pensent que si le modèle sous-jacent peut encoder avec succès la structure de l'espace d'annotation, alors même si une espèce particulière n'a pas été observée, le modèle peut être en mesure d'identifier son genre ou sa famille correspondant et de donner une représentation correspondante. Cette représentation hiérarchique permettra d’obtenir un apprentissage en quelques coups, voire en zéro coup, de nouveaux taxons.
Sur cette base, les chercheurs ont choisi CLIP, une architecture de modèle multimodale développée par OpenAI.Et utilisez l'objectif d'apprentissage contrastif multimodal de CLIP pour vous pré-entraîner en continu sur TREEOFLIFE-10M.
Plus précisément, CLIP entraîne deux modèles d'intégration unimodale, l'encodeur visuel et l'encodeur de texte, pour maximiser la similarité des caractéristiques entre les paires positives et minimiser la similarité des caractéristiques entre les paires négatives, où les paires positives proviennent des données d'entraînement et les paires négatives sont toutes les autres paires possibles dans le lot.

De plus, un avantage important de CLIP est que son encodeur de texte accepte du texte libre, qui peut gérer les divers formats de noms de classe dans le domaine biologique. En ce qui concerne la forme du texte dans cette étude, les chercheurs ont principalement pris en compte :
* Nom taxonomique :La classification biologique standard à sept niveaux va du plus haut au plus bas : Royaume, Embranchement, Classe, Ordre, Famille, Genre et Espèce. Pour chaque espèce, la taxonomie est « aplatie » en concaténant toutes les étiquettes de la racine aux feuilles en une seule chaîne, qui est le nom taxonomique.
* Nom scientifique :Se compose du genre et de l'espèce.
* Nom commun :Les noms de classe sont généralement en latin, ce qui n'est pas courant dans les ensembles de données de pré-formation image-texte généraux. Au lieu de cela, des noms communs tels que « pie à bec noir » sont plus courants. Il convient de noter qu’il n’existe peut-être pas de correspondance biunivoque entre les noms communs et les taxons ; une espèce peut avoir plusieurs noms communs, ou le même nom commun peut faire référence à plusieurs espèces.
Dans les applications pratiques, il peut n’y avoir qu’un seul type d’entrée d’annotation. Afin d'augmenter la flexibilité lors du raisonnement,Les chercheurs ont proposé une stratégie de formation de type texte mixte.Autrement dit, à chaque étape de formation, chaque image d’entrée est associée à un texte échantillonné de manière aléatoire parmi tous les types de texte disponibles. Les expériences montrent que cette stratégie de formation non seulement maintient l’avantage de généralisation des noms de classification, mais offre également plus de flexibilité lors du raisonnement.

Comme le montre la figure a ci-dessus, les groupes taxonomiques ou étiquettes de classification de deux plantes différentes, Onoclea sensibilis (d) et Onoclea hintonii (e), sont exactement les mêmes, à l'exception de l'espèce.
Comme le montre la figure 2b ci-dessus, l'encodeur de texte est un modèle de langage autorégressif qui peut encoder naturellement les représentations hiérarchiques de la taxonomie, où la représentation d'ordre Polypodiales ne peut dépendre que des ordres supérieurs et absorber les informations des jetons Royaume, Embranchement et Classe. Ces représentations hiérarchiques d'étiquettes taxonomiques sont introduites dans un objectif de pré-formation contrastif standard et mises en correspondance avec les représentations d'images (d) et (e).

La figure ci-dessus montre un exemple des prédictions faites par BioCLIP et CLIP pour cinq espèces, dont les oiseaux 525, le plancton et les insectes. Les réponses correctes sont marquées en vert et les réponses incorrectes sont marquées en rouge. La colonne de gauche montre les prédictions correctes de BioCLIP. Au milieu et à droite se trouvent des images qui ont été annotées de manière incorrecte par CLIP mais correctement annotées par BioCLIP.
BioCLIP fonctionne bien sur les tâches à zéro tir et à peu de tirs
Les chercheurs ont comparé BioCLIP à un modèle de vision générale. RésultatsBioCLIP fonctionne bien dans les tâches à zéro tir et à quelques tirs, et surpasse considérablement CLIP et OpenCLIP,L'amélioration absolue moyenne dans les tâches à zéro tir et à quelques tirs est respectivement de 17% et 16%. L’analyse intrinsèque a également montré que BioCLIP apprenait une représentation hiérarchique plus fine, cohérente avec l’arbre de la vie, expliquant sa capacité de généralisation supérieure.

Plus précisément, les chercheurs ont introduit une nouvelle tâche d'évaluation « ESPÈCES RARES », qui a collecté environ 25 000 espèces de la Liste rouge de l'UICN, classées comme quasi menacées, vulnérables, en danger, en danger critique d'extinction ou éteintes à l'état sauvage. Les chercheurs ont sélectionné 400 de ces espèces avec au moins 30 images dans l'ensemble de données EOL et les ont supprimées de TreeOfLife-10M.Création d'un nouvel ensemble de tests d'espèces rares,Il y a 30 images pour chaque espèce.
Comme le montre la figure ci-dessus, BioCLIP surpasse considérablement le modèle CLIP de base et le modèle CLIP formé avec iNat21 dans la classification zéro-shot, en particulier dans les classifications invisibles (voir la colonne Espèces rares).
Des résultats fructueux, explorant la recherche scientifique derrière le meilleur BioCLIP
« BioCLlP : un modèle de fondation de vision pour l'arbre de vie » a été publié conjointement par l'Université d'État de l'Ohio, Microsoft Research, l'Université de Californie, Irvine et le Rensselaer Polytechnic Institute.Le premier auteur de l'article, le Dr Samuel Stevens, et l'auteur correspondant, Jiaman Wu, sont tous deux de l'Université d'État de l'Ohio.
Bien que Samuel Stevens se décrive modestement sur son site Web personnel comme « une personne qui ne se prend pas très au sérieux », à en juger par ses résultats de recherche scientifique fructueux et ses efforts incessants au cours des dernières années, il est manifestement une personne qui prend la recherche scientifique au sérieux.
Il est entendu que Samuel Stevens se consacre à des travaux informatiques depuis 2017. Le modèle multimodal BioCLlP est un résultat de recherche qu'il a publié en décembre 2023 et a été accepté par CVPR 2024 en février 2024.
En fait, les travaux de vision par ordinateur comme BioCLlP ne sont qu’une de ses directions de recherche. Il a un large éventail d’intérêts et a mené une série de recherches dans des domaines tels que l’IA pour la cryptographie et divers projets LLM.
Par exemple, il a participé au « MMMU : un benchmark massif de compréhension et de raisonnement multimodal multidisciplinaire pour l'AGI expert ».Un nouveau benchmark MMMU (Massive Multi-Task Language Understanding) est proposé.En tant que l'un des référentiels d'évaluation de grands modèles les plus influents du secteur, MMMU se concentre sur l'exploitation des connaissances dans des domaines spécifiques (sciences, santé et médecine, sciences humaines, etc.) pour une perception et un raisonnement avancés, nécessitant des modèles multimodaux pour pouvoir effectuer des tâches similaires à celles auxquelles sont confrontés les experts.
Les chercheurs l'ont utilisé pour évaluer 14 LMM open source et le GPT-4V propriétaire (ision) et ont constaté que même le GPT-4V avancé n'atteignait qu'une précision de 56%, ce qui montre qu'il y a encore beaucoup de place pour l'amélioration du modèle. À cet égard, les chercheurs ont exprimé l’espoir que le benchmark inspirerait la communauté à construire la prochaine génération de modèles de fondation multimodaux pour atteindre une intelligence générale artificielle de niveau expert.
MMMU : https://mmmu-benchmark.github.io
Bien entendu, sa passion pour la recherche scientifique et son attitude ouverte sont également des facteurs clés de son succès. Hier, la nouvelle que BioCLlP avait été nommé meilleur article étudiant est tombée, et le Dr Samuel Stevens a immédiatement exprimé son point de vue au monde extérieur via les plateformes sociales : « Si vous voulez parler de vision par ordinateur des animaux, de modèles multimodaux de base ou d'IA pour la science, envoyez-moi un message privé ! »

Il convient de mentionner que le Dr Samuel Stevens non seulement avance dans la recherche scientifique, mais n'oublie jamais de soutenir la jeune génération. Son site web personnel propose également des conseils aux débutants : « Si vous souhaitez vous lancer dans l'apprentissage automatique et l'intelligence artificielle, vous pouvez commencer par le cours Machine Learning de Coursera et le cours Neural Networks: Zero to Hero d'Andrej Karpathy. Ces deux cours sont de très haute qualité et devraient être très utiles par rapport à d'autres ressources gratuites. »
Références :
1. https://samuelstevens.me/#news
Enfin, je vous recommande une activité !
Scannez le code QR pour vous inscrire au 5e rassemblement hors ligne du salon technologique « Meet AI Compiler »↓
