HyperAI

Bild-Text-Retrieval bezieht sich auf die Aufgabe, relevante Bilder basierend auf textuellen Beschreibungen zu suchen oder entsprechende textuelle Beschreibungen für gegebene Bilder zu finden. Diese Aufgabe integriert Technologien aus den Bereichen Computer Vision und Natural Language Processing, wobei die Hauptausforderung darin besteht, die semantische Kluft zu überbrücken. Die semantische Kluft ist der Unterschied zwischen der Darstellung visueller Daten in Bildern und der Art, wie Menschen diese Informationen mit Sprache beschreiben. Um dies zu bewältigen, konzentrieren sich viele Methoden darauf, einen gemeinsamen Einbettungsraum zu erlernen, in dem Bilder und Texte vergleichbar dargestellt werden können. Dies ermöglicht es, ihre Ähnlichkeit zu messen und somit eine genaueere Retrieval zu erreichen. Im Bereich des E-Commerce hat die Anwendung von Bild-Text-Retrieval einen besonders hohen Wert, da sie die Präzision von Produktsuchen und -empfehlungen verbessern kann.

Flickr30k

InternVL-G-FT (finetuned, w/o ranking)

MS COCO

BLIP-2 (ViT-G, fine-tuned)

FETA's CLIP-MIL (Many-Shot Image-to-text)

Localized Narratives

RSICD

RUC-CAS-WenLan