![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Articles d’actualité sur les crypto-monnaies
Tokenbridge: combler l'écart entre les représentations de jetons continues et discrets dans la génération visuelle
Mar 28, 2025 at 06:13 am
Les modèles de génération visuelle autorégressifs sont devenus une approche révolutionnaire de la synthèse d'image, s'inspirant des mécanismes de prédiction des jetons du modèle de langue.
Autoregressive visual generation models have emerged as a groundbreaking approach to image synthesis, drawing inspiration from language model token prediction mechanisms. These innovative models utilize image tokenizers to transform visual content into discrete or continuous tokens. The approach facilitates flexible multimodal integrations and allows adaptation of architectural innovations from LLM research. However, the field faces a critical challenge of determining the optimal token representation strategy. The choice between discrete and continuous tokens remains a fundamental dilemma, impacting model complexity and generation quality.
Les modèles de génération visuelle autorégressifs sont devenus une approche révolutionnaire de la synthèse d'image, s'inspirant des mécanismes de prédiction des jetons du modèle de langue. Ces modèles innovants utilisent des jetons d'image pour transformer le contenu visuel en jetons discrets ou continus. L'approche facilite les intégrations multimodales flexibles et permet l'adaptation des innovations architecturales de la recherche LLM. Cependant, le domaine est confronté à un défi critique de déterminer la stratégie optimale de représentation des jetons. Le choix entre les jetons discrets et continus reste un dilemme fondamental, ce qui a un impact sur la complexité du modèle et la qualité de génération.
Existing methods include visual tokenization that explores two primary approaches: continuous and discrete token representations. Variational autoencoders establish continuous latent spaces that maintain high visual fidelity, becoming foundational in diffusion model development. Discrete methods like VQ-VAE and VQGAN enable straightforward autoregressive modeling but encounter significant limitations, including codebook collapse and information loss.
Les méthodes existantes incluent la tokenisation visuelle qui explore deux approches primaires: les représentations de jetons continues et discrètes. Les autoencodeurs variationnels établissent des espaces latents continus qui maintiennent une forte fidélité visuelle, devenant fondamentale dans le développement du modèle de diffusion. Des méthodes discrètes comme VQ-VAE et VQGAN permettent une modélisation autorégressive simple mais rencontrent des limitations importantes, y compris l'effondrement du livre de codes et la perte d'informations.
Autoregressive image generation evolves from computationally intensive pixel-based methods to more efficient token-based strategies. While models like DALL-E show promising results, hybrid methods such as GIVT and MAR introduce complex architectural modifications to improve generation quality, rendering the traditional autoregressive modeling pipeline complicated.
La génération d'images autorégressive évolue à partir de méthodes basées sur des pixels intensives en calcul vers des stratégies plus efficaces basées sur des jetons. Alors que des modèles comme Dall-E montrent des résultats prometteurs, des méthodes hybrides telles que GIVT et MAR introduisent des modifications architecturales complexes pour améliorer la qualité de la génération, rendant le pipeline de modélisation autorégressif traditionnel compliqué.
To bridge this critical gap between continuous and discrete token representations in visual generation, researchers from the University of Hong Kong, ByteDance Seed, Ecole Polytechnique, and Peking University propose TokenBridge. It aims to utilize the strong representation capacity of continuous tokens while maintaining the modeling simplicity of discrete tokens. TokenBridge decouples the discretization process from initial tokenizer training by introducing a novel post-training quantization technique. Moreover, it implements a unique dimension-wise quantization strategy that independently discretizes each feature dimension, complemented by a lightweight autoregressive prediction mechanism. It efficiently manages the expanded token space while preserving high-quality visual generation capabilities.
Pour combler cet écart critique entre les représentations de jetons continues et discrètes dans la génération visuelle, les chercheurs de l'Université de Hong Kong, des semences de Bytedance, de l'Ecole Polytechnique et de l'Université de Pékin proposent Tokenbridge. Il vise à utiliser la forte capacité de représentation des jetons continus tout en maintenant la simplicité de modélisation des jetons discrets. Tokenbridge découple le processus de discrétisation de la formation initiale de tokenzer en introduisant une nouvelle technique de quantification post-formation. De plus, il met en œuvre une stratégie de quantification unique par dimension qui discrétise indépendamment chaque dimension de caractéristique, complétée par un mécanisme de prédiction autorégressif léger. Il gère efficacement l'espace de jeton élargi tout en préservant les capacités de génération visuelle de haute qualité.
TokenBridge introduces a training-free dimension-wise quantization technique that operates independently on each feature channel, effectively addressing previous token representation limitations. The approach capitalizes on two crucial properties of Variational Autoencoder features: their bounded nature due to KL constraints and near-Gaussian distribution.
Tokenbridge introduit une technique de quantification par dimension sans formation qui fonctionne indépendamment sur chaque canal de caractéristique, abordant efficacement les limitations de représentation des jetons précédents. L'approche capitalise sur deux propriétés cruciales des caractéristiques de l'autoencodeur variationnelles: leur nature limitée en raison des contraintes de KL et de la distribution presque gaussienne.
The autoregressive model adopts a Transformer architecture with two primary configurations: a default L model comprising 32 blocks with 1024 width (approx 400 million parameters) for initial studies and a larger H model with 40 blocks and 1280 width (around 910 million parameters) for final evaluations. This design allows a detailed exploration of the proposed quantization strategy across different model scales.
Le modèle autorégressif adopte une architecture de transformateur avec deux configurations principales: un modèle L par défaut comprenant 32 blocs avec 1024 largeur (environ 400 millions de paramètres) pour les études initiales et un modèle H plus grand avec 40 blocs et 1280 largeur (environ 910 millions de paramètres) pour les évaluations finales. Cette conception permet une exploration détaillée de la stratégie de quantification proposée sur différentes échelles de modèle.
The results demonstrate that TokenBridge outperforms traditional discrete token models, achieving superior Frechet Inception Distance (FID) with significantly fewer parameters. For instance, TokenBridge-L secures an FID of 1.76 with only 486 million parameters, contrasting with LlamaGen's 2.18 using 3.1 billion parameters. When benchmarked against continuous approaches, TokenBridge-L outperforms GIVT, achieving a FID of 1.76 versus 3.35.
Les résultats démontrent que Tokenbridge surpasse les modèles de jetons discrets traditionnels, atteignant une distance de création de Frechet supérieure (FID) avec beaucoup moins de paramètres. Par exemple, Tokenbridge-L sécurise un FID de 1,76 avec seulement 486 millions de paramètres, contrastant avec 2,18 de Llamagen en utilisant 3,1 milliards de paramètres. Lorsqu'il est compliqué contre les approches continues, Tokenbridge-L surpasse Givt, atteignant un FID de 1,76 contre 3,35.
The H-model configuration further validates the method's effectiveness, matching MAR-H in FID (1.55) while delivering superior Inception Score and Recall metrics with marginally fewer parameters. These results highlight TokenBridge's capability to bridge discrete and continuous token representations.
La configuration du modèle H valide en outre l'efficacité de la méthode, correspondant à MAR-H dans FID (1,55) tout en fournissant un score de création supérieur et des mesures de rappel avec légèrement moins de paramètres. Ces résultats mettent en évidence la capacité de Tokenbridge à combler des représentations de jeton discrètes et continues.
In conclusion, researchers present TokenBridge, which bridges the longstanding gap between discrete and continuous token representations. It achieves high-quality visual generation with remarkable efficiency by introducing a post-training quantization approach and dimension-wise autoregressive decomposition. The research demonstrates that discrete token approaches using standard cross-entropy loss can compete with state-of-the-art continuous methods, eliminating the need for complex distribution modeling techniques. This finding opens a promising pathway for future investigations, potentially transforming how researchers conceptualize and implement token-based visual synthesis technologies.
En conclusion, les chercheurs présentent Tokenbridge, qui comble l'écart de longue date entre les représentations de jetons discrets et continus. Il réalise une génération visuelle de haute qualité avec une efficacité remarquable en introduisant une approche de quantification post-formation et une décomposition autorégressive par dimension. La recherche démontre que des approches de jetons discrètes utilisant une perte de croisement standard peuvent rivaliser avec des méthodes continues de pointe, éliminant le besoin de techniques de modélisation de distribution complexes. Cette découverte ouvre une voie prometteuse pour les enquêtes futures, potentiellement transformer la façon dont les chercheurs conceptualisent et mettent en œuvre des technologies de synthèse visuelle basées sur des jetons.
Check out the Paper, GitHub Page and Project. All credit for this research goes to the researchers of this project. Also, feel free to follow us on Twitter and don’t forget to join our 85k+ ML SubReddit.
Consultez le papier, la page GitHub et le projet. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'hésitez pas à nous suivre sur Twitter et n'oubliez pas de rejoindre notre sous-trède 85k + ML.
Clause de non-responsabilité:info@kdj.com
Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!
Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.
-
- Après l'annonce tarifaire du président des États-Unis, Donald Trump, l'ensemble du marché de la crypto-monnaie a connu une vente massive.
- Apr 04, 2025 at 12:25 am
- Au milieu de cela, Bitcoin (BTC), la plus grande crypto-monnaie du monde par capitalisation boursière, a coulé plus de 6%, est devenu baissier et est maintenant prêt pour une baisse significative des prix.
-
-
-
- Les procureurs sud-coréens détaillent deux tactiques commerciales frauduleuses utilisées pour manipuler les prix des jetons Fusionist (ACE)
- Apr 04, 2025 at 12:20 am
- Les autorités sud-coréennes ont détaillé deux tactiques commerciales frauduleuses utilisées dans la manipulation des prix du jeton Fusionist (ACE), ce qui a entraîné des pertes d'investisseurs totalisant 7,1 milliards de wons (4,85 millions de dollars).
-
- L'événement de déverrouillage de jeton Ethena (ENA) le 5 avril pourrait exercer une pression à la baisse sur le prix
- Apr 04, 2025 at 12:15 am
- Ethena (ENA) connaît une baisse significative de la valeur, baissant de près de 16% au cours des dernières 24 heures à 0,3012 $. La capitalisation boursière a diminué à 1,62 milliard de dollars, bien que le volume commercial ait bondi de 110,42%, atteignant 301,80 millions de dollars
-
- Les tarifs de la «Journée de libération» de Donald Trump ont envoyé des prix de cryptographie à grande capitalisation
- Apr 04, 2025 at 12:15 am
- Les tarifs de la «Journée de libération» de Donald Trump ont fait chuter les prix de la cryptographie à grande capitalisation. Le prix du bitcoin est de retour en dessous du niveau de soutien de 84 000 $
-
-
-