Command Palette
Search for a command to run...
Du entraînement libre à l'adaptation : des aperçus empiriques sur la compréhension des MLLMs des informations de détection
Du entraînement libre à l'adaptation : des aperçus empiriques sur la compréhension des MLLMs des informations de détection
Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen
Résumé
Malgré les capacités impressionnantes des modèles linguistiques massifs multimodaux (MLLM) dans l’intégration des modalités texte et image, des défis persistent quant à l’interprétation précise des éléments visuels détaillés. Les modèles de détection visuelle se distinguent par leur capacité à reconnaître des détails fins dans les images, ce qui a poussé les chercheurs à les exploiter pour améliorer les MLLM. Une stratégie efficace consiste à intégrer les informations de détection sous forme de texte, méthode qui s’est révélée simple et performante. Toutefois, la plupart des études adoptent cette approche sans entraînement, laissant inexploré le potentiel de l’entraînement adaptatif. Cet entraînement pourrait considérablement renforcer la compréhension des entrées spécifiques par les MLLM tout en filtrant les informations non pertinentes. Ce papier aborde une question fondamentale : comment l’entraînement influence-t-il la compréhension des MLLM concernant les informations de détection textuelles intégrées ? Nous menons des expérimentations systématiques sur divers modèles représentatifs afin d’évaluer les effets des stratégies d’entraînement sans entraînement, de re-entraînement et de fine-tuning. Nous examinons également l’impact de l’entraînement sur les capacités initiales des MLLM ainsi que l’interchangeabilité des modèles de détection. Nos résultats indiquent qu’un fine-tuning d’un MLLM pré-entraîné pour intégrer des informations de détection textuelles conduit à de meilleurs résultats par rapport aux méthodes sans entraînement ou de re-entraînement, avec une amélioration moyenne de 6,71 % sur 10 benchmarks largement reconnus. De plus, le fine-tuning permet aux MLLM de préserver ces améliorations même lorsqu’un modèle de détection est remplacé, témoignant d’une meilleure compréhension des données textuelles structurées. Nous mettons à disposition notre code afin de soutenir des recherches ultérieures sur les stratégies de fusion des modèles de détection visuelle et sur l’amélioration des capacités multimodales fines des MLLM.