HyperAIHyperAI
vor 2 Monaten

HyperSeg: Auf dem Weg zur universellen visuellen Segmentierung mit großen Sprachmodellen

Cong Wei; Yujie Zhong; Haoxian Tan; Yong Liu; Zheng Zhao; Jie Hu; Yujiu Yang
HyperSeg: Auf dem Weg zur universellen visuellen Segmentierung mit großen Sprachmodellen
Abstract

Dieses Papier strebt an, die universelle Segmentierung für Bild- und Videowahrnehmung zu bearbeiten, gestützt auf die starken Inferenzfähigkeiten, die durch visuelle Large Language Models (VLLMs) verliehen werden. Trotz erheblicher Fortschritte in aktuellen einheitlichen Segmentierungsverfahren sind ihre Einschränkungen bei der Anpassung an sowohl Bilder als auch Videoszenarien sowie bei der komplexen Inferenzsegmentierung so gravierend, dass es schwierig ist, verschiedene herausfordernde Anweisungen zu bewältigen und eine genaue Erfassung feiner Vision-Sprach-Korrelationen zu erreichen. Wir schlagen HyperSeg vor, das erste VLLM-basierte universelle Segmentierungsmodell für pixelgenaue Bild- und Videowahrnehmung, das sowohl generische Segmentierungsaufgaben als auch komplexere Wahrnehmungsaufgaben abdeckt, die starke Inferenzfähigkeiten und Weltwissen erfordern. Darüber hinaus integriert HyperSeg hybride Entitätserkennungs- und feingranulare visuelle Wahrnehmungsmodule, um die Erkennungsfähigkeiten von VLLMs und die feingranularen visuellen Informationen vollständig auszunutzen. In Kombination mit dem zeitlichen Adapter erreicht HyperSeg eine umfassende Erfassung zeitlicher Informationen. Experimentelle Ergebnisse bestätigen die Effektivität unserer Erkenntnisse bei der Lösung universeller Bild- und Videosegmentierungsaufgaben, einschließlich komplexerer Wahrnehmungsaufgaben mit starker Inferenz. Unser Code ist verfügbar.请注意,这里有一些术语的处理:- "Visual Large Language Models" 翻译为 "visuelle Large Language Models (VLLMs)"- "Inferenz" 是德语中常用的术语,对应英文中的 "reasoning"- "Weltwissen" 对应英文中的 "world knowledge"- "feingranular" 用于描述细粒度的信息,对应英文中的 "fine-grained"希望这些翻译能符合您的要求。如果有任何进一步的修改或调整,请随时告知。

HyperSeg: Auf dem Weg zur universellen visuellen Segmentierung mit großen Sprachmodellen | Neueste Forschungsarbeiten | HyperAI