HyperAIHyperAI
vor 16 Tagen

Zusammenfassung von Datensätzen durch k Hauptkonzepte

Niv Cohen, Yedid Hoshen
Zusammenfassung von Datensätzen durch k Hauptkonzepte
Abstract

Wir schlagen die neue Aufgabe der Identifikation von K Hauptkonzepten zur Zusammenfassung von Datensätzen vor. Ziel ist es, eine Menge von K Konzepten zu finden, die die Variation innerhalb des Datensatzes am besten erklären. Konzepte sind hochgradig menschlich interpretierbare Begriffe wie beispielsweise „Tiger“, „Kajakfahren“ oder „glücklich“. Die K Konzepte werden aus einer (potenziell langen) Eingabeliste möglicher Kandidaten, die wir als Konzeptbank bezeichnen, ausgewählt. Die Konzeptbank kann aus einem allgemeinen Wörterbuch stammen oder durch domain-spezifisches Vorwissen konstruiert werden. Eine bildsprachliche Embedding-Methode (z. B. CLIP) wird eingesetzt, um sowohl die Bilder als auch die Konzeptbank in einen gemeinsamen Merkmalsraum abzubilden. Um die K Konzepte auszuwählen, die die Daten am besten erklären, formulieren wir das Problem als K-uncapacitated Facility Location Problem. Eine effiziente Optimierungstechnik ermöglicht es, den lokalen Suchalgorithmus auf sehr große Konzeptbänke zu skalieren. Das Ergebnis unseres Ansatzes ist eine Menge von K Hauptkonzepten, die den Datensatz zusammenfassen. Im Vergleich zur Auswahl von K repräsentativen Bildern bietet unsere Methode eine expliziteren und klareren Zusammenfassung, da diese oft mehrdeutig sind. Als weiterführende Anwendung können die K Hauptkonzepte dazu verwendet werden, den Datensatz in K Gruppen zu klassifizieren. Umfassende Experimente belegen die Wirksamkeit unseres Ansatzes.

Zusammenfassung von Datensätzen durch k Hauptkonzepte | Neueste Forschungsarbeiten | HyperAI