![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
자동 회귀 시각 생성 모델은 이미지 합성에 대한 획기적인 접근 방식으로 등장하여 언어 모델 토큰 예측 메커니즘에서 영감을 얻었습니다.
Autoregressive visual generation models have emerged as a groundbreaking approach to image synthesis, drawing inspiration from language model token prediction mechanisms. These innovative models utilize image tokenizers to transform visual content into discrete or continuous tokens. The approach facilitates flexible multimodal integrations and allows adaptation of architectural innovations from LLM research. However, the field faces a critical challenge of determining the optimal token representation strategy. The choice between discrete and continuous tokens remains a fundamental dilemma, impacting model complexity and generation quality.
자동 회귀 시각 생성 모델은 이미지 합성에 대한 획기적인 접근 방식으로 등장하여 언어 모델 토큰 예측 메커니즘에서 영감을 얻었습니다. 이 혁신적인 모델은 이미지 토큰 화제를 사용하여 시각적 컨텐츠를 개별적이거나 연속적인 토큰으로 변환합니다. 이 접근법은 유연한 멀티 모드 통합을 용이하게하고 LLM 연구에서 건축 혁신을 적응시킬 수 있습니다. 그러나이 분야는 최적의 토큰 표현 전략을 결정하는 데 중요한 과제에 직면 해 있습니다. 개별 토큰과 연속 토큰 사이의 선택은 모델 복잡성과 생성 품질에 영향을 미치는 기본 딜레마로 남아 있습니다.
Existing methods include visual tokenization that explores two primary approaches: continuous and discrete token representations. Variational autoencoders establish continuous latent spaces that maintain high visual fidelity, becoming foundational in diffusion model development. Discrete methods like VQ-VAE and VQGAN enable straightforward autoregressive modeling but encounter significant limitations, including codebook collapse and information loss.
기존 방법에는 연속 및 이산 토큰 표현의 두 가지 주요 접근법을 탐구하는 시각적 토큰 화가 포함됩니다. 변형 자동 인코더는 높은 시각적 충실도를 유지하는 연속 잠재 공간을 확립하여 확산 모델 개발에서 기초가됩니다. VQ-VAE 및 VQGAN과 같은 개별 방법을 사용하면 간단한 자동 회귀 모델링을 가능하게하지만 코드북 붕괴 및 정보 손실을 포함하여 상당한 제한 사항이 발생합니다.
Autoregressive image generation evolves from computationally intensive pixel-based methods to more efficient token-based strategies. While models like DALL-E show promising results, hybrid methods such as GIVT and MAR introduce complex architectural modifications to improve generation quality, rendering the traditional autoregressive modeling pipeline complicated.
자동 회귀 이미지 생성은 계산 집중 픽셀 기반 방법에서보다 효율적인 토큰 기반 전략으로 발전합니다. Dall-E와 같은 모델은 유망한 결과를 보여 주지만 GIVT 및 Mar와 같은 하이브리드 방법은 복잡한 아키텍처 수정을 도입하여 생성 품질을 향상시켜 기존의 자동 회귀 모델링 파이프 라인을 복잡하게 만듭니다.
To bridge this critical gap between continuous and discrete token representations in visual generation, researchers from the University of Hong Kong, ByteDance Seed, Ecole Polytechnique, and Peking University propose TokenBridge. It aims to utilize the strong representation capacity of continuous tokens while maintaining the modeling simplicity of discrete tokens. TokenBridge decouples the discretization process from initial tokenizer training by introducing a novel post-training quantization technique. Moreover, it implements a unique dimension-wise quantization strategy that independently discretizes each feature dimension, complemented by a lightweight autoregressive prediction mechanism. It efficiently manages the expanded token space while preserving high-quality visual generation capabilities.
시각적 생성에서 지속적이고 개별 토큰 표현 사이의 이러한 중요한 격차를 해소하기 위해 홍콩 대학교의 연구원, Bytedance Seed, Ecole Polytechnique 및 Peking University는 Tokenbridge를 제안합니다. 이산 토큰의 모델링 단순성을 유지하면서 연속 토큰의 강력한 표현 용량을 활용하는 것을 목표로합니다. Tokenbridge는 새로운 훈련 후 양자화 기술을 도입하여 초기 토 케이저 훈련에서 이산화 프로세스를 분해합니다. 더욱이, 그것은 가벼운 자동 회귀 예측 메커니즘에 의해 보완되는 각 특징 차원을 독립적으로 분산시키는 고유 한 차원의 양자화 전략을 구현합니다. 고품질의 시각적 생성 기능을 보존하면서 확장 된 토큰 공간을 효율적으로 관리합니다.
TokenBridge introduces a training-free dimension-wise quantization technique that operates independently on each feature channel, effectively addressing previous token representation limitations. The approach capitalizes on two crucial properties of Variational Autoencoder features: their bounded nature due to KL constraints and near-Gaussian distribution.
Tokenbridge는 각 기능 채널에서 독립적으로 작동하는 훈련이없는 차원의 양자화 기술을 도입하여 이전 토큰 표현 제한을 효과적으로 해결합니다. 이 접근법은 변동성 자동 인코더 특징의 두 가지 중요한 특성을 활용합니다.
The autoregressive model adopts a Transformer architecture with two primary configurations: a default L model comprising 32 blocks with 1024 width (approx 400 million parameters) for initial studies and a larger H model with 40 blocks and 1280 width (around 910 million parameters) for final evaluations. This design allows a detailed exploration of the proposed quantization strategy across different model scales.
자동 회귀 모델은 두 가지 1 차 구성을 갖춘 변압기 아키텍처를 채택합니다. 초기 연구의 경우 1024 폭 (약 4 억 개의 매개 변수)을 가진 32 개의 블록 (약 4 억 개의 매개 변수)과 최종 평가를 위해 40 블록 및 1280 백만 개의 폭 (약 910 백만 매개 변수)의 더 큰 H 모델을 포함하는 기본 L 모델. 이 설계는 다른 모델 척도에서 제안 된 양자화 전략을 자세히 탐색 할 수 있습니다.
The results demonstrate that TokenBridge outperforms traditional discrete token models, achieving superior Frechet Inception Distance (FID) with significantly fewer parameters. For instance, TokenBridge-L secures an FID of 1.76 with only 486 million parameters, contrasting with LlamaGen's 2.18 using 3.1 billion parameters. When benchmarked against continuous approaches, TokenBridge-L outperforms GIVT, achieving a FID of 1.76 versus 3.35.
결과는 Tokenbridge가 전통적인 이산 토큰 모델을 능가하여 매개 변수가 상당히 적은 우수한 Frechet Inception 거리 (FID)를 달성 함을 보여줍니다. 예를 들어, Tokenbridge-L은 31 억 개의 매개 변수를 사용하는 Llamagen의 2.18과 대조적으로 4 억 8 천 6 백만 개의 매개 변수로 1.76의 FIF를 확보합니다. 지속적인 접근 방식에 대해 벤치마킹되면 Tokenbridge-L은 GIVT를 능가하여 1.76 대 3.35의 FIL을 달성합니다.
The H-model configuration further validates the method's effectiveness, matching MAR-H in FID (1.55) while delivering superior Inception Score and Recall metrics with marginally fewer parameters. These results highlight TokenBridge's capability to bridge discrete and continuous token representations.
H- 모델 구성은 MAR-H와 FID (1.55)의 MAR-H와 일치하는 방법의 효과를 더욱 검증하는 동시에 우수한 Inception 점수를 제공하고 매개 변수가 약간 적은 메트릭을 제공합니다. 이 결과는 Tokenbridge의 개별적이고 지속적인 토큰 표현을 연결하는 기능을 강조합니다.
In conclusion, researchers present TokenBridge, which bridges the longstanding gap between discrete and continuous token representations. It achieves high-quality visual generation with remarkable efficiency by introducing a post-training quantization approach and dimension-wise autoregressive decomposition. The research demonstrates that discrete token approaches using standard cross-entropy loss can compete with state-of-the-art continuous methods, eliminating the need for complex distribution modeling techniques. This finding opens a promising pathway for future investigations, potentially transforming how researchers conceptualize and implement token-based visual synthesis technologies.
결론적으로, 연구원들은 Tokenbridge를 발표하여 개별 토큰 표현과 연속 토큰 표현 사이의 오랜 격차를 해소합니다. 후 훈련 후 양자화 접근법과 치수-현저한 자동 회귀 분해를 도입하여 현저한 효율로 고품질 시각적 생성을 달성합니다. 이 연구는 표준 교차 엔트로피 손실을 사용한 이산 토큰 접근법이 최첨단 연속 방법과 경쟁하여 복잡한 분포 모델링 기술의 필요성을 제거 할 수 있음을 보여줍니다. 이 발견은 향후 조사를위한 유망한 경로를 열어 연구원들이 토큰 기반 시각적 합성 기술을 개념화하고 구현하는 방식을 변화시킵니다.
Check out the Paper, GitHub Page and Project. All credit for this research goes to the researchers of this project. Also, feel free to follow us on Twitter and don’t forget to join our 85k+ ML SubReddit.
종이, Github 페이지 및 프로젝트를 확인하십시오. 이 연구에 대한 모든 크레딧은이 프로젝트의 연구원들에게 전달됩니다. 또한 트위터에서 우리를 팔로우하고 85k+ ml 하위 레드에 가입하는 것을 잊지 마십시오.
부인 성명:info@kdj.com
제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!
본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.