vor 8 Monaten

Zusammenfassung

Dieses Papier strebt an, die universelle Segmentierung für Bild- und Videowahrnehmung zu bearbeiten, gestützt auf die starken Inferenzfähigkeiten, die durch visuelle Large Language Models (VLLMs) verliehen werden. Trotz erheblicher Fortschritte in aktuellen einheitlichen Segmentierungsverfahren sind ihre Einschränkungen bei der Anpassung an sowohl Bilder als auch Videoszenarien sowie bei der komplexen Inferenzsegmentierung so gravierend, dass es schwierig ist, verschiedene herausfordernde Anweisungen zu bewältigen und eine genaue Erfassung feiner Vision-Sprach-Korrelationen zu erreichen. Wir schlagen HyperSeg vor, das erste VLLM-basierte universelle Segmentierungsmodell für pixelgenaue Bild- und Videowahrnehmung, das sowohl generische Segmentierungsaufgaben als auch komplexere Wahrnehmungsaufgaben abdeckt, die starke Inferenzfähigkeiten und Weltwissen erfordern. Darüber hinaus integriert HyperSeg hybride Entitätserkennungs- und feingranulare visuelle Wahrnehmungsmodule, um die Erkennungsfähigkeiten von VLLMs und die feingranularen visuellen Informationen vollständig auszunutzen. In Kombination mit dem zeitlichen Adapter erreicht HyperSeg eine umfassende Erfassung zeitlicher Informationen. Experimentelle Ergebnisse bestätigen die Effektivität unserer Erkenntnisse bei der Lösung universeller Bild- und Videosegmentierungsaufgaben, einschließlich komplexerer Wahrnehmungsaufgaben mit starker Inferenz. Unser Code ist verfügbar.请注意，这里有一些术语的处理：- "Visual Large Language Models" 翻译为 "visuelle Large Language Models (VLLMs)"- "Inferenz" 是德语中常用的术语，对应英文中的 "reasoning"- "Weltwissen" 对应英文中的 "world knowledge"- "feingranular" 用于描述细粒度的信息，对应英文中的 "fine-grained"希望这些翻译能符合您的要求。如果有任何进一步的修改或调整，请随时告知。

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Semantische Segmentierung

Cong Wei Yujie Zhong† Haoxian Tan Yong Liu Zheng Zhao Jie Hu Yujiu Yang†

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Semantische Segmentierung

Cong Wei Yujie Zhong† Haoxian Tan Yong Liu Zheng Zhao Jie Hu Yujiu Yang†

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

HyperSeg: Auf dem Weg zur universellen visuellen Segmentierung mit großen Sprachmodellen

Cong Wei Yujie Zhong† Haoxian Tan Yong Liu Zheng Zhao Jie Hu Yujiu Yang†

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

HyperSeg: Auf dem Weg zur universellen visuellen Segmentierung mit großen Sprachmodellen

Cong Wei Yujie Zhong† Haoxian Tan Yong Liu Zheng Zhao Jie Hu Yujiu Yang†

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

HyperSeg: Auf dem Weg zur universellen visuellen Segmentierung mit großen Sprachmodellen

Cong Wei Yujie Zhong† Haoxian Tan Yong Liu Zheng Zhao Jie Hu Yujiu Yang†

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters