il y a 8 mois

Résumé

Malgré les capacités impressionnantes des modèles linguistiques massifs multimodaux (MLLM) dans l’intégration des modalités texte et image, des défis persistent quant à l’interprétation précise des éléments visuels détaillés. Les modèles de détection visuelle se distinguent par leur capacité à reconnaître des détails fins dans les images, ce qui a poussé les chercheurs à les exploiter pour améliorer les MLLM. Une stratégie efficace consiste à intégrer les informations de détection sous forme de texte, méthode qui s’est révélée simple et performante. Toutefois, la plupart des études adoptent cette approche sans entraînement, laissant inexploré le potentiel de l’entraînement adaptatif. Cet entraînement pourrait considérablement renforcer la compréhension des entrées spécifiques par les MLLM tout en filtrant les informations non pertinentes. Ce papier aborde une question fondamentale : comment l’entraînement influence-t-il la compréhension des MLLM concernant les informations de détection textuelles intégrées ? Nous menons des expérimentations systématiques sur divers modèles représentatifs afin d’évaluer les effets des stratégies d’entraînement sans entraînement, de re-entraînement et de fine-tuning. Nous examinons également l’impact de l’entraînement sur les capacités initiales des MLLM ainsi que l’interchangeabilité des modèles de détection. Nos résultats indiquent qu’un fine-tuning d’un MLLM pré-entraîné pour intégrer des informations de détection textuelles conduit à de meilleurs résultats par rapport aux méthodes sans entraînement ou de re-entraînement, avec une amélioration moyenne de 6,71 % sur 10 benchmarks largement reconnus. De plus, le fine-tuning permet aux MLLM de préserver ces améliorations même lorsqu’un modèle de détection est remplacé, témoignant d’une meilleure compréhension des données textuelles structurées. Nous mettons à disposition notre code afin de soutenir des recherches ultérieures sur les stratégies de fusion des modèles de détection visuelle et sur l’amélioration des capacités multimodales fines des MLLM.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Réponse À Des Questions Visuelles

Reconnaissance D'objets

Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Réponse À Des Questions Visuelles

Reconnaissance D'objets

Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Du entraînement libre à l'adaptation : des aperçus empiriques sur la compréhension des MLLMs des informations de détection | Articles | HyperAI

Command Palette

Du entraînement libre à l'adaptation : des aperçus empiriques sur la compréhension des MLLMs des informations de détection

Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Du entraînement libre à l'adaptation : des aperçus empiriques sur la compréhension des MLLMs des informations de détection

Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Du entraînement libre à l'adaptation : des aperçus empiriques sur la compréhension des MLLMs des informations de détection

Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters