Search for a command to run...
Tuna-2: ピクセル埋め込みは、マルチモーダルな理解と生成においてビジョンエンコーダを上回る (訳注:学術文脈における「beat」は、パフォーマンス比較の文脈において「~を上回る」「凌駕する」等の表現で訳すのが一般的ですが、タイトルとして簡潔に「勝る」「凌ぐ」の意味を込めて「上回る」としました。また、技術用語「Pixel Embeddings」は「ピクセル埋め込み」、「Vision Encoders」は「ビジョンエンコーダ」と訳しています。)