Search for a command to run...
Tuna-2: Pixel Embeddings가 Multimodal 이해 및 생성을 위해 Vision Encoders를 능가하다