Marktkapitalisierung: $2.6507T -1.180%
Volumen (24h): $51.5315B -12.580%
  • Marktkapitalisierung: $2.6507T -1.180%
  • Volumen (24h): $51.5315B -12.580%
  • Angst- und Gier-Index:
  • Marktkapitalisierung: $2.6507T -1.180%
Kryptos
Themen
Cryptospedia
Nachricht
Cryptostopics
Videos
Top -Nachrichten
Kryptos
Themen
Cryptospedia
Nachricht
Cryptostopics
Videos
bitcoin
bitcoin

$83456.399385 USD

-0.62%

ethereum
ethereum

$1843.547137 USD

-2.81%

tether
tether

$0.999712 USD

0.02%

xrp
xrp

$2.204343 USD

2.44%

bnb
bnb

$612.705254 USD

0.15%

solana
solana

$126.453091 USD

-0.84%

usd-coin
usd-coin

$0.999969 USD

0.00%

dogecoin
dogecoin

$0.172208 USD

-2.52%

cardano
cardano

$0.683701 USD

-1.89%

tron
tron

$0.231299 USD

-0.69%

toncoin
toncoin

$3.725152 USD

-0.43%

chainlink
chainlink

$13.761897 USD

-2.89%

unus-sed-leo
unus-sed-leo

$9.650340 USD

-0.72%

stellar
stellar

$0.271854 USD

0.43%

avalanche
avalanche

$19.853690 USD

-1.65%

Nachrichtenartikel zu Kryptowährungen

Tokenbridge: Überbrückung der Lücke zwischen kontinuierlichen und diskreten Token -Darstellungen in der visuellen Erzeugung

Mar 28, 2025 at 06:13 am

Autoregressive Modelle zur visuellen Generation haben sich als bahnbrechender Ansatz zur Bildsynthese herausgestellt und sich von Sprachmodell -Token -Vorhersagemechanismen inspirieren lassen.

Tokenbridge: Überbrückung der Lücke zwischen kontinuierlichen und diskreten Token -Darstellungen in der visuellen Erzeugung

Autoregressive visual generation models have emerged as a groundbreaking approach to image synthesis, drawing inspiration from language model token prediction mechanisms. These innovative models utilize image tokenizers to transform visual content into discrete or continuous tokens. The approach facilitates flexible multimodal integrations and allows adaptation of architectural innovations from LLM research. However, the field faces a critical challenge of determining the optimal token representation strategy. The choice between discrete and continuous tokens remains a fundamental dilemma, impacting model complexity and generation quality.

Autoregressive Modelle zur visuellen Generation haben sich als bahnbrechender Ansatz zur Bildsynthese herausgestellt und sich von Sprachmodell -Token -Vorhersagemechanismen inspirieren lassen. Diese innovativen Modelle nutzen Image -Tokenizer, um den visuellen Inhalt in diskrete oder kontinuierliche Token zu verwandeln. Der Ansatz erleichtert flexible multimodale Integrationen und ermöglicht die Anpassung architektonischer Innovationen aus LLM -Forschung. Das Feld steht jedoch vor einer kritischen Herausforderung bei der Bestimmung der optimalen Strategie zur Repräsentation von Token. Die Wahl zwischen diskreten und kontinuierlichen Token bleibt ein grundlegendes Dilemma, das die Modellkomplexität und die Qualität der Generation beeinflusst.

Existing methods include visual tokenization that explores two primary approaches: continuous and discrete token representations. Variational autoencoders establish continuous latent spaces that maintain high visual fidelity, becoming foundational in diffusion model development. Discrete methods like VQ-VAE and VQGAN enable straightforward autoregressive modeling but encounter significant limitations, including codebook collapse and information loss.

Zu den vorhandenen Methoden gehören eine visuelle Tokenisierung, die zwei primäre Ansätze untersucht: kontinuierliche und diskrete Token -Darstellungen. Variationsautoencodierer erstellen kontinuierliche latente Räume, die eine hohe visuelle Treue aufrechterhalten und in der Entwicklung des Diffusionsmodells fundamentös werden. Diskrete Methoden wie VQ-VAE und VQGAN ermöglichen eine einfache autoregressive Modellierung, begegnen jedoch erhebliche Einschränkungen, einschließlich des Zusammenbruchs des Codebuchs und des Informationsverlusts.

Autoregressive image generation evolves from computationally intensive pixel-based methods to more efficient token-based strategies. While models like DALL-E show promising results, hybrid methods such as GIVT and MAR introduce complex architectural modifications to improve generation quality, rendering the traditional autoregressive modeling pipeline complicated.

Die autoregressive Bildgenerierung entwickelt sich von rechenintensiven pixelbasierten Methoden zu effizienteren Token-basierten Strategien. Während Modelle wie Dall-E vielversprechende Ergebnisse zeigen, führen Hybridmethoden wie GIVT und MAR komplexe architektonische Modifikationen ein, um die Qualität der Erzeugung zu verbessern und die traditionelle autoregressive Modellierungspipeline kompliziert zu machen.

To bridge this critical gap between continuous and discrete token representations in visual generation, researchers from the University of Hong Kong, ByteDance Seed, Ecole Polytechnique, and Peking University propose TokenBridge. It aims to utilize the strong representation capacity of continuous tokens while maintaining the modeling simplicity of discrete tokens. TokenBridge decouples the discretization process from initial tokenizer training by introducing a novel post-training quantization technique. Moreover, it implements a unique dimension-wise quantization strategy that independently discretizes each feature dimension, complemented by a lightweight autoregressive prediction mechanism. It efficiently manages the expanded token space while preserving high-quality visual generation capabilities.

Um diese kritische Kluft zwischen kontinuierlichen und diskreten Token -Darstellungen in der visuellen Erzeugung zu schließen, schlagen Forscher der Universität von Hongkong, Bytedance Seed, Ecole Polytechnique und Peking University Tokenbridge vor. Ziel ist es, die starke Repräsentationskapazität von kontinuierlichen Token zu nutzen und gleichzeitig die Modellierung der diskreten Token aufrechtzuerhalten. Tokenbridge entkoppelt den Diskretisierungsprozess aus dem ersten Tokenizer-Training durch Einführung einer neuen Quantisierungstechnik nach dem Training. Darüber hinaus implementiert es eine einzigartige dimensionsweise Quantisierungsstrategie, die jede Merkmalsdimension unabhängig diskretiert, ergänzt durch einen leichten autoregressiven Vorhersagemechanismus. Es verwaltet den erweiterten Token-Raum effizient und bewahrt und bewahrt eine qualitativ hochwertige visuelle Erzeugung.

TokenBridge introduces a training-free dimension-wise quantization technique that operates independently on each feature channel, effectively addressing previous token representation limitations. The approach capitalizes on two crucial properties of Variational Autoencoder features: their bounded nature due to KL constraints and near-Gaussian distribution.

Tokenbridge führt eine schädlichfreie Dimensionsquantisierungstechnik ein, die unabhängig von jedem Feature-Kanal arbeitet und die Einschränkungen der Vorgängerdarstellung effektiv behandelt. Der Ansatz nutzt zwei wichtige Eigenschaften von Variationsautoencoder-Merkmalen: ihre begrenzte Natur aufgrund von KL-Einschränkungen und der fast gaußischen Verteilung.

The autoregressive model adopts a Transformer architecture with two primary configurations: a default L model comprising 32 blocks with 1024 width (approx 400 million parameters) for initial studies and a larger H model with 40 blocks and 1280 width (around 910 million parameters) for final evaluations. This design allows a detailed exploration of the proposed quantization strategy across different model scales.

Das autoregressive Modell verwendet eine Transformatorarchitektur mit zwei primären Konfigurationen: ein Standard -L -Modell, das 32 Blöcke mit 1024 Breite (ca. 400 Millionen Parameter) für erste Studien und ein größeres H -Modell mit 40 Blöcken und 1280 Breiten (rund 910 Millionen Parameter) umfasst. Dieses Design ermöglicht eine detaillierte Erforschung der vorgeschlagenen Quantisierungsstrategie in verschiedenen Modellskalen.

The results demonstrate that TokenBridge outperforms traditional discrete token models, achieving superior Frechet Inception Distance (FID) with significantly fewer parameters. For instance, TokenBridge-L secures an FID of 1.76 with only 486 million parameters, contrasting with LlamaGen's 2.18 using 3.1 billion parameters. When benchmarked against continuous approaches, TokenBridge-L outperforms GIVT, achieving a FID of 1.76 versus 3.35.

Die Ergebnisse zeigen, dass Tokenbridge herkömmliche diskrete Tokenmodelle übertrifft und über einen überlegenen Inception -Abstand (FID) mit signifikant weniger Parametern führt. Zum Beispiel sichert Tokenbridge-L eine FID von 1,76 mit nur 486 Millionen Parametern, was sich im Gegensatz zu Lamagens 2,18 unter Verwendung von 3,1 Milliarden Parametern im Gegensatz zu. Bei den kontinuierlichen Ansätzen übertrifft Tokenbridge-l Givt und erreicht einen FID von 1,76 gegenüber 3,35.

The H-model configuration further validates the method's effectiveness, matching MAR-H in FID (1.55) while delivering superior Inception Score and Recall metrics with marginally fewer parameters. These results highlight TokenBridge's capability to bridge discrete and continuous token representations.

Die H-Model-Konfiguration validiert weiter die Effektivität der Methode, die MAR-H in FID (1,55) entspricht, während er überlegene Inception-Score und Rückrufmetriken mit geringfügig weniger Parametern liefert. Diese Ergebnisse heben die Fähigkeit von Tokenbridge hervor, diskrete und kontinuierliche Token -Darstellungen zu überbrücken.

In conclusion, researchers present TokenBridge, which bridges the longstanding gap between discrete and continuous token representations. It achieves high-quality visual generation with remarkable efficiency by introducing a post-training quantization approach and dimension-wise autoregressive decomposition. The research demonstrates that discrete token approaches using standard cross-entropy loss can compete with state-of-the-art continuous methods, eliminating the need for complex distribution modeling techniques. This finding opens a promising pathway for future investigations, potentially transforming how researchers conceptualize and implement token-based visual synthesis technologies.

Zusammenfassend präsentieren Forscher Tokenbridge, die die langjährige Kluft zwischen diskreten und kontinuierlichen Token -Darstellungen überbrücken. Es erreicht eine qualitativ hochwertige visuelle Erzeugung mit bemerkenswerter Effizienz, indem ein Quantisierungsansatz nach der Ausbildung und eine autoregressive Zerlegung von Dimensionen eingeführt wird. Die Forschung zeigt, dass diskrete Token-Ansätze mit Standard-Cross-Entropy-Verlust mit kontinuierlichen Methoden auf dem neuesten Stand der Technik konkurrieren können, wodurch die Notwendigkeit komplexer Verteilungsmodellierungstechniken beseitigt werden. Dieser Befund eröffnet einen vielversprechenden Weg für zukünftige Untersuchungen und verändert möglicherweise, wie Forscher Token-basierte visuelle Synthese-Technologien konzipieren und implementieren.

Check out the Paper, GitHub Page and Project. All credit for this research goes to the researchers of this project. Also, feel free to follow us on Twitter and don’t forget to join our 85k+ ML SubReddit.

Schauen Sie sich das Papier, die Github -Seite und das Projekt an. Alle Krediten für diese Forschung gilt an die Forscher dieses Projekts. Sie können uns auch gerne auf Twitter folgen und vergessen Sie nicht, an unserem 85.000+ ml Subreddit teilzunehmen.

Haftungsausschluss:info@kdj.com

Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!

Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.

Weitere Artikel veröffentlicht am Mar 31, 2025