Tokenverseを提示します。これは、事前に訓練されたテキスト間拡散モデルを活用して、マルチコンセプトパーソナライズの方法です。私たちのフレームワークは、複数の画像から抽出された概念の組み合わせのシームレスなプラグアンドプレイの生成を可能にしながら、複雑な視覚要素と属性を単一の画像から解き放つことができます。既存の作品とは対照的に、Tokenverseはそれぞれ複数の概念を持つ複数の画像を処理し、オブジェクト、アクセサリー、素材、ポーズ、照明などの幅広い概念をサポートします。私たちの仕事は、DITベースのテキストから画像から画像へのモデルを活用します。このモデルでは、入力テキストが注意と変調(シフトとスケール)の両方を通じて生成に影響します。変調空間はセマンティックであり、複雑な概念をローカライズした制御を可能にすることがわかります。この洞察に基づいて、画像とテキストの説明を入力し、各単語に変調空間の明確な方向を見つける最適化ベースのフレームワークを考案します。これらの方向を使用して、学習した概念を目的の構成で組み合わせた新しい画像を生成できます。挑戦的なパーソナライズ設定におけるTokenverseの有効性を実証し、既存の方法よりもその利点を示します。このhttps://token-verse.github.io/のプロジェクトのWebページ。 https://arxiv.org/abs/2501.12224
免責事項:info@kdj.com
提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。
このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。
2025年01月24日 他の動画も公開されています