SocialGPT: Anregung von LLMs für die soziale Beziehungsanalyse durch gierige Segmentoptimierung

Die Analyse sozialer Beziehungen zielt darauf ab, Beziehungskategorien wie Freunde, Ehepartner und Kollegen aus Bildern zu identifizieren. Obwohl aktuelle Methoden das Paradigma des end-to-end-Trainings eines dedizierten Netzes unter Verwendung von annotierten Bilddaten anwenden, sind sie in Bezug auf Generalisierbarkeit und Interpretierbarkeit eingeschränkt. Um diese Probleme zu lösen, präsentieren wir zunächst einen einfachen, aber gut konzipierten Rahmen namens {ame}, der die Wahrnehmungsfähigkeit von Vision Foundation Models (VFMs) und die Schlussfolgerungsfähigkeit von Large Language Models (LLMs) in einem modularen Framework kombiniert und damit eine starke Grundlage für die Erkennung sozialer Beziehungen bietet. Insbesondere instruieren wir VFMs, den Bildinhalt in eine textbasierte soziale Geschichte zu übersetzen, und nutzen dann LLMs für textbasierte Schlussfolgerungen. {ame} führt systematische Designprinzipien ein, um VFMs und LLMs getrennt anzupassen und ihre Unterschiede zu überbrücken. Ohne zusätzliches Modelltraining erzielt es wettbewerbsfähige Ergebnisse im Zero-Shot-Lernen auf zwei Datenbanken und bietet interpretierbare Antworten, da LLMs sprachbasierte Erklärungen für die Entscheidungen generieren können. Der manuelle Prozess der Prompt-Designs für LLMs im Schlussfolgerungsstadium ist mühsam, und es wird eine automatisierte Methode zur Optimierung der Prompts gewünscht. Da wir im Wesentlichen eine visuelle Klassifikationsaufgabe in eine generative Aufgabe von LLMs umwandeln, stellt die automatische Prompt-Optimierung ein einzigartiges Problem der langen Prompt-Optimierung dar. Um dieses Problem zu lösen, schlagen wir ferner die Greedy Segment Prompt Optimization (GSPO) vor, die durch Nutzung von Gradienteninformationen auf Segmentebene eine gierige Suche durchführt. Experimentelle Ergebnisse zeigen, dass GSPO die Leistungsignifikant verbessert und unsere Methode sich auch auf verschiedene Bildstile verallgemeinern lässt. Der Code ist unter https://github.com/Mengzibin/SocialGPT verfügbar.