우리는 다중 개념 개인화를위한 방법 인 Tokenverse를 제시하여 미리 훈련 된 텍스트-이미지 확산 모델을 활용합니다. 당사의 프레임 워크는 단일 이미지만큼 복잡한 시각적 요소와 속성을 분리 할 수 있으며, 여러 이미지에서 추출한 개념의 원활한 플러그 앤 플레이 조합 생성을 가능하게합니다. 기존 작품과 달리 Tokenverse는 각각 여러 개념으로 여러 이미지를 처리 할 수 있으며 개체, 액세서리, 재료, 포즈 및 조명을 포함한 광범위한 개념을 지원합니다. 우리의 작업은 DIT 기반 텍스트-이미지 모델을 이용하여 입력 텍스트가주의와 변조 (Shift and Scale)를 통해 생성에 영향을 미칩니다. 우리는 변조 공간이 의미 론적이며 복잡한 개념에 대한 국소 제어를 가능하게한다는 것을 관찰합니다. 이 통찰력을 바탕으로 우리는 이미지와 텍스트 설명을 입력하는 최적화 기반 프레임 워크를 고안하고 각 단어에 대해 변조 공간에서 뚜렷한 방향을 찾습니다. 그런 다음 이러한 방향을 사용하여 학습 된 개념을 원하는 구성으로 결합하는 새로운 이미지를 생성 할 수 있습니다. 우리는 도전적인 개인화 설정에서 Tokenverse의 효과를 보여주고 기존 방법에 비해 장점을 보여줍니다. 이 https://token-verse.github.io/의 프로젝트 웹 페이지. https://arxiv.org/abs/2501.12224