Command Palette
Search for a command to run...
人間不要:自律型高品質画像編集三つ組み抽出
人間不要:自律型高品質画像編集三つ組み抽出
Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh Georgii Fedorov Bulat Suleimanov Vladimir Dokholyan Aleksandr Gordeev
概要
近年の生成モデルの進展により、追加のユーザー入力なしに自然言語の指示に従って画像編集を行うアシスタントが可能となった。これらのモデルは、オリジナル画像、指示文、編集後の画像という3つのデータセットを百万単位で使用して教師あり学習を行う必要がある。しかし、ピクセルレベルで正確な例を収集することは困難である。各編集作業は、指示された領域のみに影響を与え、スタイルの一貫性を保ち、物理的に現実的な状況を尊重し、視覚的な魅力を維持する必要がある。しかし、信頼性の高い自動編集品質評価メトリクスが不足しているため、スケールに応じた信頼性のある自動化は困難である。我々は、ドメイン、解像度、指示の複雑さ、スタイルにわたって高精度なトリプルを収集する、自動的でモジュール式のパイプラインを提示する。このシステムは、公開されている生成モデルを基盤とし、人間の介入なしに動作する。タスクチューニングされたGeminiバリデータを用いて、指示への適合性と芸術性を直接スコア付けし、セグメンテーションやグランドリングモデルの必要性を排除する。逆問題解決と構成的ブートストラップにより、収集されたデータセットは約2.2倍に拡大され、大規模な高精度なトレーニングデータの生成が可能になる。最も繰り返しの多いアノテーションステップを自動化することにより、このアプローチは人間によるラベル付け作業なしで新たな規模のトレーニングが可能となる。このリソース集約的な分野における研究の民主化を目的として、我々は358,000の高品質なトリプルを含むオープンデータセット「NHR-Edit」を公開する。最大規模のクロスデータセット評価において、このデータセットはすべての公開代替手段を上回る性能を示す。また、我々はオープンソースでチューニングされたBagelモデル「Bagel-NHR-Edit」も公開しており、実験において最新のメトリクスを達成している。