HyperAIHyperAI
vor 11 Tagen

GRiT: Ein generativer Region-to-Text-Transformer für die Objektverstehens

Jialian Wu, Jianfeng Wang, Zhengyuan Yang, Zhe Gan, Zicheng Liu, Junsong Yuan, Lijuan Wang
GRiT: Ein generativer Region-to-Text-Transformer für die Objektverstehens
Abstract

Diese Arbeit präsentiert einen generativen Region-to-Text-Transformer, GRiT, für die Objektverstehensaufgabe. Der Kerngedanke von GRiT besteht darin, das Objektverstehen als Paare aus zu formulieren, wobei die Region die Position des Objekts angibt und der Text dessen Beschreibung liefert. Beispielsweise bezeichnet der Text in der Objektdetektion Klassenbezeichnungen, während er in der dichten Captioning-Aufgabe beschreibende Sätze enthält. Speziell besteht GRiT aus einem visuellen Encoder zur Extraktion von Bildmerkmalen, einem Extraktor für vordergründige Objekte zur Lokalisierung der Objekte sowie einem Textdecoder zur Generierung offener Objektbeschreibungen. Mit derselben Modellarchitektur kann GRiT Objekte nicht nur durch einfache Substantive, sondern auch durch reichhaltige beschreibende Sätze – einschließlich Objektmerkmale oder Handlungen – verstehen. Experimentell wenden wir GRiT auf die Aufgaben der Objektdetektion und dichten Captioning an. GRiT erreicht eine AP von 60,4 auf dem COCO 2017 Test-Dev und eine mAP von 15,5 auf Visual Genome. Der Quellcode ist unter https://github.com/JialianW/GRiT verfügbar.

GRiT: Ein generativer Region-to-Text-Transformer für die Objektverstehens | Neueste Forschungsarbeiten | HyperAI