$83571.608249 USD

-1.38%

ethereum

$1826.028236 USD

-3.02%

tether

$0.999839 USD

-0.01%

xrp

$2.053149 USD

-2.48%

bnb

$601.140115 USD

-0.44%

solana

$120.357332 USD

-3.79%

usd-coin

$0.999833 USD

-0.02%

dogecoin

$0.166175 USD

-3.43%

cardano

$0.652521 USD

-3.00%

tron

$0.236809 USD

-0.59%

toncoin

$3.785339 USD

-5.02%

chainlink

$13.253231 USD

-3.91%

unus-sed-leo

$9.397427 USD

-0.19%

stellar

$0.266444 USD

-1.00%

sui

$2.409007 USD

1.15%

Articles d’actualité sur les crypto-monnaies

Tokenbridge: combler l'écart entre les représentations de jetons continues et discrets dans la génération visuelle

Mar 28, 2025 at 06:13 am

Les modèles de génération visuelle autorégressifs sont devenus une approche révolutionnaire de la synthèse d'image, s'inspirant des mécanismes de prédiction des jetons du modèle de langue.

Autoregressive visual generation models have emerged as a groundbreaking approach to image synthesis, drawing inspiration from language model token prediction mechanisms. These innovative models utilize image tokenizers to transform visual content into discrete or continuous tokens. The approach facilitates flexible multimodal integrations and allows adaptation of architectural innovations from LLM research. However, the field faces a critical challenge of determining the optimal token representation strategy. The choice between discrete and continuous tokens remains a fundamental dilemma, impacting model complexity and generation quality.

Les modèles de génération visuelle autorégressifs sont devenus une approche révolutionnaire de la synthèse d'image, s'inspirant des mécanismes de prédiction des jetons du modèle de langue. Ces modèles innovants utilisent des jetons d'image pour transformer le contenu visuel en jetons discrets ou continus. L'approche facilite les intégrations multimodales flexibles et permet l'adaptation des innovations architecturales de la recherche LLM. Cependant, le domaine est confronté à un défi critique de déterminer la stratégie optimale de représentation des jetons. Le choix entre les jetons discrets et continus reste un dilemme fondamental, ce qui a un impact sur la complexité du modèle et la qualité de génération.

Existing methods include visual tokenization that explores two primary approaches: continuous and discrete token representations. Variational autoencoders establish continuous latent spaces that maintain high visual fidelity, becoming foundational in diffusion model development. Discrete methods like VQ-VAE and VQGAN enable straightforward autoregressive modeling but encounter significant limitations, including codebook collapse and information loss.

Les méthodes existantes incluent la tokenisation visuelle qui explore deux approches primaires: les représentations de jetons continues et discrètes. Les autoencodeurs variationnels établissent des espaces latents continus qui maintiennent une forte fidélité visuelle, devenant fondamentale dans le développement du modèle de diffusion. Des méthodes discrètes comme VQ-VAE et VQGAN permettent une modélisation autorégressive simple mais rencontrent des limitations importantes, y compris l'effondrement du livre de codes et la perte d'informations.

Autoregressive image generation evolves from computationally intensive pixel-based methods to more efficient token-based strategies. While models like DALL-E show promising results, hybrid methods such as GIVT and MAR introduce complex architectural modifications to improve generation quality, rendering the traditional autoregressive modeling pipeline complicated.

La génération d'images autorégressive évolue à partir de méthodes basées sur des pixels intensives en calcul vers des stratégies plus efficaces basées sur des jetons. Alors que des modèles comme Dall-E montrent des résultats prometteurs, des méthodes hybrides telles que GIVT et MAR introduisent des modifications architecturales complexes pour améliorer la qualité de la génération, rendant le pipeline de modélisation autorégressif traditionnel compliqué.

To bridge this critical gap between continuous and discrete token representations in visual generation, researchers from the University of Hong Kong, ByteDance Seed, Ecole Polytechnique, and Peking University propose TokenBridge. It aims to utilize the strong representation capacity of continuous tokens while maintaining the modeling simplicity of discrete tokens. TokenBridge decouples the discretization process from initial tokenizer training by introducing a novel post-training quantization technique. Moreover, it implements a unique dimension-wise quantization strategy that independently discretizes each feature dimension, complemented by a lightweight autoregressive prediction mechanism. It efficiently manages the expanded token space while preserving high-quality visual generation capabilities.

Pour combler cet écart critique entre les représentations de jetons continues et discrètes dans la génération visuelle, les chercheurs de l'Université de Hong Kong, des semences de Bytedance, de l'Ecole Polytechnique et de l'Université de Pékin proposent Tokenbridge. Il vise à utiliser la forte capacité de représentation des jetons continus tout en maintenant la simplicité de modélisation des jetons discrets. Tokenbridge découple le processus de discrétisation de la formation initiale de tokenzer en introduisant une nouvelle technique de quantification post-formation. De plus, il met en œuvre une stratégie de quantification unique par dimension qui discrétise indépendamment chaque dimension de caractéristique, complétée par un mécanisme de prédiction autorégressif léger. Il gère efficacement l'espace de jeton élargi tout en préservant les capacités de génération visuelle de haute qualité.

TokenBridge introduces a training-free dimension-wise quantization technique that operates independently on each feature channel, effectively addressing previous token representation limitations. The approach capitalizes on two crucial properties of Variational Autoencoder features: their bounded nature due to KL constraints and near-Gaussian distribution.

Tokenbridge introduit une technique de quantification par dimension sans formation qui fonctionne indépendamment sur chaque canal de caractéristique, abordant efficacement les limitations de représentation des jetons précédents. L'approche capitalise sur deux propriétés cruciales des caractéristiques de l'autoencodeur variationnelles: leur nature limitée en raison des contraintes de KL et de la distribution presque gaussienne.

The autoregressive model adopts a Transformer architecture with two primary configurations: a default L model comprising 32 blocks with 1024 width (approx 400 million parameters) for initial studies and a larger H model with 40 blocks and 1280 width (around 910 million parameters) for final evaluations. This design allows a detailed exploration of the proposed quantization strategy across different model scales.

Le modèle autorégressif adopte une architecture de transformateur avec deux configurations principales: un modèle L par défaut comprenant 32 blocs avec 1024 largeur (environ 400 millions de paramètres) pour les études initiales et un modèle H plus grand avec 40 blocs et 1280 largeur (environ 910 millions de paramètres) pour les évaluations finales. Cette conception permet une exploration détaillée de la stratégie de quantification proposée sur différentes échelles de modèle.

The results demonstrate that TokenBridge outperforms traditional discrete token models, achieving superior Frechet Inception Distance (FID) with significantly fewer parameters. For instance, TokenBridge-L secures an FID of 1.76 with only 486 million parameters, contrasting with LlamaGen's 2.18 using 3.1 billion parameters. When benchmarked against continuous approaches, TokenBridge-L outperforms GIVT, achieving a FID of 1.76 versus 3.35.

Les résultats démontrent que Tokenbridge surpasse les modèles de jetons discrets traditionnels, atteignant une distance de création de Frechet supérieure (FID) avec beaucoup moins de paramètres. Par exemple, Tokenbridge-L sécurise un FID de 1,76 avec seulement 486 millions de paramètres, contrastant avec 2,18 de Llamagen en utilisant 3,1 milliards de paramètres. Lorsqu'il est compliqué contre les approches continues, Tokenbridge-L surpasse Givt, atteignant un FID de 1,76 contre 3,35.

The H-model configuration further validates the method's effectiveness, matching MAR-H in FID (1.55) while delivering superior Inception Score and Recall metrics with marginally fewer parameters. These results highlight TokenBridge's capability to bridge discrete and continuous token representations.

La configuration du modèle H valide en outre l'efficacité de la méthode, correspondant à MAR-H dans FID (1,55) tout en fournissant un score de création supérieur et des mesures de rappel avec légèrement moins de paramètres. Ces résultats mettent en évidence la capacité de Tokenbridge à combler des représentations de jeton discrètes et continues.

In conclusion, researchers present TokenBridge, which bridges the longstanding gap between discrete and continuous token representations. It achieves high-quality visual generation with remarkable efficiency by introducing a post-training quantization approach and dimension-wise autoregressive decomposition. The research demonstrates that discrete token approaches using standard cross-entropy loss can compete with state-of-the-art continuous methods, eliminating the need for complex distribution modeling techniques. This finding opens a promising pathway for future investigations, potentially transforming how researchers conceptualize and implement token-based visual synthesis technologies.

En conclusion, les chercheurs présentent Tokenbridge, qui comble l'écart de longue date entre les représentations de jetons discrets et continus. Il réalise une génération visuelle de haute qualité avec une efficacité remarquable en introduisant une approche de quantification post-formation et une décomposition autorégressive par dimension. La recherche démontre que des approches de jetons discrètes utilisant une perte de croisement standard peuvent rivaliser avec des méthodes continues de pointe, éliminant le besoin de techniques de modélisation de distribution complexes. Cette découverte ouvre une voie prometteuse pour les enquêtes futures, potentiellement transformer la façon dont les chercheurs conceptualisent et mettent en œuvre des technologies de synthèse visuelle basées sur des jetons.

Check out the Paper, GitHub Page and Project. All credit for this research goes to the researchers of this project. Also, feel free to follow us on Twitter and don’t forget to join our 85k+ ML SubReddit.

Consultez le papier, la page GitHub et le projet. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'hésitez pas à nous suivre sur Twitter et n'oubliez pas de rejoindre notre sous-trède 85k + ML.

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie！

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Apr 04, 2025

Plus