Command Palette
Search for a command to run...
WAVECLIP: Wellenleitertokenisierung für adaptiv-auflösendes CLIP
Moshe Kimhi Erez Koifman Ehud Rivlin Eli Schwartz Chaim Baskin

Abstract
Wir stellen WAVECLIP vor, ein einheitliches, einzigartiges Modell für die adaptiv auflösende Inferenz in CLIP, das durch eine wellenbasierte Tokenisierung ermöglicht wird. WAVECLIP ersetzt die herkömmlichen Patch-Einbettungen durch eine mehrstufige Wellenletzzerlegung, wodurch das Modell Bilder von grob bis fein verarbeiten kann und gleichzeitig mehrere Auflösungen innerhalb desselben Modells natürlicherweise unterstützt. Während der Inferenz beginnt das Modell mit niedriger Auflösung und führt nur dann eine Verfeinerung durch, wenn dies erforderlich ist. Hierbei werden Schlüssel-Wert-Caches und kausale quer-stufige Aufmerksamkeit genutzt, um Berechnungen wiederzuverwenden und das Modell effizient nur mit neuen Informationen zu aktualisieren. Wir evaluieren WAVECLIP im zero-shot-Klassifizierungsaufgaben und zeigen, dass ein einfacher, auf Vertrauenswerten basierender Gating-Mechanismus eine adaptiv frühe Ausgabe ermöglicht. Dadurch können Benutzer dynamisch eine Trade-off-Beziehung zwischen Rechenleistung und Genauigkeit anhand eines einzigen bereitgestellten Modells wählen. Unser Ansatz erfordert lediglich eine leichtgewichtige Distanzierung von einem fixierten CLIP-Teacher und erreicht dabei konkurrenzfähige Genauigkeit bei erheblichen Einsparungen an Rechenleistung.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.