vor 8 Monaten

Zusammenfassung

Die Analyse sozialer Beziehungen zielt darauf ab, Beziehungskategorien wie Freunde, Ehepartner und Kollegen aus Bildern zu identifizieren. Obwohl aktuelle Methoden das Paradigma des end-to-end-Trainings eines dedizierten Netzes unter Verwendung von annotierten Bilddaten anwenden, sind sie in Bezug auf Generalisierbarkeit und Interpretierbarkeit eingeschränkt. Um diese Probleme zu lösen, präsentieren wir zunächst einen einfachen, aber gut konzipierten Rahmen namens {ame}, der die Wahrnehmungsfähigkeit von Vision Foundation Models (VFMs) und die Schlussfolgerungsfähigkeit von Large Language Models (LLMs) in einem modularen Framework kombiniert und damit eine starke Grundlage für die Erkennung sozialer Beziehungen bietet. Insbesondere instruieren wir VFMs, den Bildinhalt in eine textbasierte soziale Geschichte zu übersetzen, und nutzen dann LLMs für textbasierte Schlussfolgerungen. {ame} führt systematische Designprinzipien ein, um VFMs und LLMs getrennt anzupassen und ihre Unterschiede zu überbrücken. Ohne zusätzliches Modelltraining erzielt es wettbewerbsfähige Ergebnisse im Zero-Shot-Lernen auf zwei Datenbanken und bietet interpretierbare Antworten, da LLMs sprachbasierte Erklärungen für die Entscheidungen generieren können. Der manuelle Prozess der Prompt-Designs für LLMs im Schlussfolgerungsstadium ist mühsam, und es wird eine automatisierte Methode zur Optimierung der Prompts gewünscht. Da wir im Wesentlichen eine visuelle Klassifikationsaufgabe in eine generative Aufgabe von LLMs umwandeln, stellt die automatische Prompt-Optimierung ein einzigartiges Problem der langen Prompt-Optimierung dar. Um dieses Problem zu lösen, schlagen wir ferner die Greedy Segment Prompt Optimization (GSPO) vor, die durch Nutzung von Gradienteninformationen auf Segmentebene eine gierige Suche durchführt. Experimentelle Ergebnisse zeigen, dass GSPO die Leistungsignifikant verbessert und unsere Methode sich auch auf verschiedene Bildstile verallgemeinern lässt. Der Code ist unter https://github.com/Mengzibin/SocialGPT verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Wanhua Li Zibin Meng Jiawei Zhou Donglai Wei Chuang Gan Hanspeter Pfister

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Wanhua Li Zibin Meng Jiawei Zhou Donglai Wei Chuang Gan Hanspeter Pfister

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SocialGPT: Anregung von LLMs für die soziale Beziehungsanalyse durch gierige Segmentoptimierung

Wanhua Li Zibin Meng Jiawei Zhou Donglai Wei Chuang Gan Hanspeter Pfister

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SocialGPT: Anregung von LLMs für die soziale Beziehungsanalyse durch gierige Segmentoptimierung

Wanhua Li Zibin Meng Jiawei Zhou Donglai Wei Chuang Gan Hanspeter Pfister

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SocialGPT: Anregung von LLMs für die soziale Beziehungsanalyse durch gierige Segmentoptimierung

Wanhua Li Zibin Meng Jiawei Zhou Donglai Wei Chuang Gan Hanspeter Pfister

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters