HyperAIHyperAI

Command Palette

Search for a command to run...

AnyCapプロジェクト:制御可能なオムニモーダルキャプショニングの統一フレームワーク、データセット、およびベンチマーク

概要

制御可能なキャプショニングは、精密なマルチモーダルアライメントと指示の追従に不可欠であるが、既存のモデルはしばしば細かい制御機能や信頼性のある評価プロトコルを欠いている。このギャップを埋めるために、モデル、データセット、評価を統合したソリューションであるAnyCapプロジェクトを紹介する。本プロジェクトでは、AnyCapModel (ACM) を導入する。これは軽量でプラグアンドプレイ型のフレームワークであり、既存の基盤モデルに対してオムニモーダルキャプショニングの制御性を向上させるためのものである。ベースモデルの再学習を行うことなく、ACMはベースモデルから生成された元々のキャプションを使用しつつ、ユーザ指令とモーダリティ特徴を取り入れて改善されたキャプションを生成する。また、制御可能なマルチモーダルキャプショニングにおけるデータ不足問題に対処するために、AnyCapDataset (ACD) を構築した。このデータセットは3つのモーダリティ(視覚、聴覚、触覚)、28種類のユーザ指令タイプ、および30万件以上の高品質なデータエントリをカバーしている。さらに、内容の正確さとスタイルの一貫性を分離することでより信頼性のある評価指標を提供する新しいベンチマークAnyCapEvalも提案する。ACMはAnyCapEvalにおいて多様な基盤モデル間で著しくキャプション品質を向上させている。特に注目に値するのは、ACM-8BがGPT-4oのコンテンツスコアを45%向上させ、スタイルスコアを12%向上させている点である。また、MIA-BenchやVidCapBenchなどの広く使用されているベンチマークでも大幅な改善が見られている。(注:「Omni-modal」は「オムニモーダル」と訳しました。「Omni」は「全方向的な」「包括的な」という意味を持ち、「modal」は「モード」または「モーダリティ」と訳されることが多いです。)


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています