HyperAIHyperAI
vor 17 Tagen

PhotoChat: Ein Mensch-Mensch-Dialekt-Datensatz mit Foto-Sharing-Verhalten für gemeinsame Bild-Text-Modellierung

Xiaoxue Zang, Lijuan Liu, Maria Wang, Yang Song, Hao Zhang, Jindong Chen
PhotoChat: Ein Mensch-Mensch-Dialekt-Datensatz mit Foto-Sharing-Verhalten für gemeinsame Bild-Text-Modellierung
Abstract

Wir präsentieren ein neues menschliches Dialog-Datensatz-Set – PhotoChat – den ersten Datensatz, der das Verhalten beim Teilen von Fotos in Online-Nachrichten beleuchtet. PhotoChat umfasst 12.000 Dialoge, wobei jeder Dialog mit einem Foto verknüpft ist, das während des Gesprächs geteilt wird. Auf Basis dieses Datensatzes schlagen wir zwei Aufgaben vor, um die Forschung im Bereich der Bild-Text-Modellierung zu fördern: eine Aufgabe zur Vorhersage des Fotosharing-Intents, die vorhersagt, ob ein Nutzer in der nächsten Gesprächsrunde ein Foto teilen möchte, sowie eine Aufgabe zur Foto-Abfrage, bei der das am besten passende Foto anhand des Gesprächs-Kontexts identifiziert wird. Zudem stellen wir für beide Aufgaben Baseline-Modelle bereit, die auf state-of-the-art-Modellen basieren, und berichten über ihre Benchmark-Leistungen. Das beste Modell für die Foto-Abfrage erreicht eine Recall@1 von 10,4 % (unter 1000 Kandidaten), während das beste Modell zur Vorhersage des Fotosharing-Intents eine F1-Score von 58,1 % erzielt – was darauf hinweist, dass der Datensatz interessante, aber dennoch herausfordernde Probleme der realen Welt darstellt. Wir veröffentlichen PhotoChat, um zukünftige Forschungsarbeiten in der wissenschaftlichen Gemeinschaft zu unterstützen.