HyperAIHyperAI

Command Palette

Search for a command to run...

GRiT: Ein generativer Region-to-Text-Transformer für die Objektverstehens

Jialian Wu Jianfeng Wang Zhengyuan Yang Zhe Gan Zicheng Liu Junsong Yuan Lijuan Wang

Zusammenfassung

Diese Arbeit präsentiert einen generativen Region-to-Text-Transformer, GRiT, für die Objektverstehensaufgabe. Der Kerngedanke von GRiT besteht darin, das Objektverstehen als Paare aus zu formulieren, wobei die Region die Position des Objekts angibt und der Text dessen Beschreibung liefert. Beispielsweise bezeichnet der Text in der Objektdetektion Klassenbezeichnungen, während er in der dichten Captioning-Aufgabe beschreibende Sätze enthält. Speziell besteht GRiT aus einem visuellen Encoder zur Extraktion von Bildmerkmalen, einem Extraktor für vordergründige Objekte zur Lokalisierung der Objekte sowie einem Textdecoder zur Generierung offener Objektbeschreibungen. Mit derselben Modellarchitektur kann GRiT Objekte nicht nur durch einfache Substantive, sondern auch durch reichhaltige beschreibende Sätze – einschließlich Objektmerkmale oder Handlungen – verstehen. Experimentell wenden wir GRiT auf die Aufgaben der Objektdetektion und dichten Captioning an. GRiT erreicht eine AP von 60,4 auf dem COCO 2017 Test-Dev und eine mAP von 15,5 auf Visual Genome. Der Quellcode ist unter https://github.com/JialianW/GRiT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp