時価総額: $2.6507T -1.180%
ボリューム(24時間): $51.5315B -12.580%
  • 時価総額: $2.6507T -1.180%
  • ボリューム(24時間): $51.5315B -12.580%
  • 恐怖と貪欲の指数:
  • 時価総額: $2.6507T -1.180%
暗号
トピック
暗号化
ニュース
暗号造園
動画
トップニュース
暗号
トピック
暗号化
ニュース
暗号造園
動画
bitcoin
bitcoin

$83456.399385 USD

-0.62%

ethereum
ethereum

$1843.547137 USD

-2.81%

tether
tether

$0.999712 USD

0.02%

xrp
xrp

$2.204343 USD

2.44%

bnb
bnb

$612.705254 USD

0.15%

solana
solana

$126.453091 USD

-0.84%

usd-coin
usd-coin

$0.999969 USD

0.00%

dogecoin
dogecoin

$0.172208 USD

-2.52%

cardano
cardano

$0.683701 USD

-1.89%

tron
tron

$0.231299 USD

-0.69%

toncoin
toncoin

$3.725152 USD

-0.43%

chainlink
chainlink

$13.761897 USD

-2.89%

unus-sed-leo
unus-sed-leo

$9.650340 USD

-0.72%

stellar
stellar

$0.271854 USD

0.43%

avalanche
avalanche

$19.853690 USD

-1.65%

暗号通貨のニュース記事

トークンブリッジ:視覚生成における連続と離散トークン表現の間のギャップを埋める

2025/03/28 06:13

自己回帰視覚生成モデルは、画像合成への画期的なアプローチとして浮上し、言語モデルトークン予測メカニズムからインスピレーションを引き出しています。

トークンブリッジ:視覚生成における連続と離散トークン表現の間のギャップを埋める

Autoregressive visual generation models have emerged as a groundbreaking approach to image synthesis, drawing inspiration from language model token prediction mechanisms. These innovative models utilize image tokenizers to transform visual content into discrete or continuous tokens. The approach facilitates flexible multimodal integrations and allows adaptation of architectural innovations from LLM research. However, the field faces a critical challenge of determining the optimal token representation strategy. The choice between discrete and continuous tokens remains a fundamental dilemma, impacting model complexity and generation quality.

自己回帰視覚生成モデルは、画像合成への画期的なアプローチとして浮上し、言語モデルトークン予測メカニズムからインスピレーションを引き出しています。これらの革新的なモデルは、画像トークンザーを利用して、視覚コンテンツを個別または連続トークンに変換します。このアプローチは、柔軟なマルチモーダル統合を促進し、LLM Researchからの建築革新の適応を可能にします。ただし、このフィールドは、最適なトークン表現戦略を決定するという重要な課題に直面しています。離散トークンと連続トークンの選択は、根本的なジレンマであり、モデルの複雑さと生成の質に影響を与えます。

Existing methods include visual tokenization that explores two primary approaches: continuous and discrete token representations. Variational autoencoders establish continuous latent spaces that maintain high visual fidelity, becoming foundational in diffusion model development. Discrete methods like VQ-VAE and VQGAN enable straightforward autoregressive modeling but encounter significant limitations, including codebook collapse and information loss.

既存の方法には、連続的および離散トークン表現という2つの主要なアプローチを探る視覚トークン化が含まれます。変動自動エンコーダーは、視覚的な忠実度を維持する連続的な潜在スペースを確立し、拡散モデルの発達の基礎となる。 VQ-VAEやVQGANなどの個別の方法は、簡単な自己回帰モデリングを有効にしますが、コードブックの崩壊や情報の損失など、大きな制限に遭遇します。

Autoregressive image generation evolves from computationally intensive pixel-based methods to more efficient token-based strategies. While models like DALL-E show promising results, hybrid methods such as GIVT and MAR introduce complex architectural modifications to improve generation quality, rendering the traditional autoregressive modeling pipeline complicated.

オートレーリング画像の生成は、計算集中的なピクセルベースの方法から、より効率的なトークンベースの戦略に進化します。 Dall-Eのようなモデルは有望な結果を示していますが、GIVTやMARなどのハイブリッドメソッドは、生成品質を改善するために複雑なアーキテクチャの変更を導入し、従来の自己回帰モデリングパイプラインを複雑にします。

To bridge this critical gap between continuous and discrete token representations in visual generation, researchers from the University of Hong Kong, ByteDance Seed, Ecole Polytechnique, and Peking University propose TokenBridge. It aims to utilize the strong representation capacity of continuous tokens while maintaining the modeling simplicity of discrete tokens. TokenBridge decouples the discretization process from initial tokenizer training by introducing a novel post-training quantization technique. Moreover, it implements a unique dimension-wise quantization strategy that independently discretizes each feature dimension, complemented by a lightweight autoregressive prediction mechanism. It efficiently manages the expanded token space while preserving high-quality visual generation capabilities.

視覚生成における連続と個別のトークン表現の間のこの重要なギャップを埋めるために、香港大学、bytedanceシード、エコールポリテクニック、北京大学の研究者はトークンブリッジを提案します。これは、離散トークンのモデリングのシンプルさを維持しながら、連続トークンの強力な表現能力を活用することを目的としています。 Tokenbridgeは、新しいトレーニング後の量子化技術を導入することにより、初期トークナイザートレーニングから離散化プロセスを切り離します。さらに、軽量の自己回帰予測メカニズムによって補完された各特徴ディメンションを独立して離散化するユニークなディメンションごとの量子化戦略を実装します。高品質の視覚生成機能を維持しながら、拡張されたトークンスペースを効率的に管理します。

TokenBridge introduces a training-free dimension-wise quantization technique that operates independently on each feature channel, effectively addressing previous token representation limitations. The approach capitalizes on two crucial properties of Variational Autoencoder features: their bounded nature due to KL constraints and near-Gaussian distribution.

Tokenbridgeは、各機能チャネルで独立して動作するトレーニングフリーのディメンションごとの量子化技術を導入し、前のトークン表現の制限に効果的に対処します。このアプローチは、変分自動エンコーダーの特徴の2つの重要な特性を活用しています。KLの制約とガウス近くの分布による境界のある性質です。

The autoregressive model adopts a Transformer architecture with two primary configurations: a default L model comprising 32 blocks with 1024 width (approx 400 million parameters) for initial studies and a larger H model with 40 blocks and 1280 width (around 910 million parameters) for final evaluations. This design allows a detailed exploration of the proposed quantization strategy across different model scales.

自動回帰モデルは、2つの主要な構成を備えたトランスアーキテクチャを採用しています。最初の研究では1024幅(約4億パラメーター)を持つ32ブロック(約4億パラメーター)を含むデフォルトLモデル、最終評価のために40ブロックと1280幅(約910百万パラメーター)を持つより大きなHモデルです。この設計により、さまざまなモデルスケールで提案された量子化戦略の詳細な調査が可能になります。

The results demonstrate that TokenBridge outperforms traditional discrete token models, achieving superior Frechet Inception Distance (FID) with significantly fewer parameters. For instance, TokenBridge-L secures an FID of 1.76 with only 486 million parameters, contrasting with LlamaGen's 2.18 using 3.1 billion parameters. When benchmarked against continuous approaches, TokenBridge-L outperforms GIVT, achieving a FID of 1.76 versus 3.35.

結果は、Tokenbridgeが従来の離散トークンモデルよりも優れており、パラメーターが大幅に少ない優れたフレッシュインセプション距離(FID)を達成することを示しています。たとえば、Tokenbridge-Lは1.76のFIDを確保し、4億8,600万のパラメーターしかありません。31億パラメーターを使用してLlamagenの2.18とは対照的です。連続的なアプローチに対してベンチマークされた場合、Tokenbridge-LはGIVTを上回り、3.35に対して1.76のFIDを達成します。

The H-model configuration further validates the method's effectiveness, matching MAR-H in FID (1.55) while delivering superior Inception Score and Recall metrics with marginally fewer parameters. These results highlight TokenBridge's capability to bridge discrete and continuous token representations.

Hモデル構成は、メソッドの有効性をさらに検証し、FID(1.55)でMAR-Hを一致させながら、優れたインセプションスコアとリコールメトリックをわずかに少ないパラメーターでリコールします。これらの結果は、個別のトークン表現と連続トークン表現を橋渡しするトークンブリッジの能力を強調しています。

In conclusion, researchers present TokenBridge, which bridges the longstanding gap between discrete and continuous token representations. It achieves high-quality visual generation with remarkable efficiency by introducing a post-training quantization approach and dimension-wise autoregressive decomposition. The research demonstrates that discrete token approaches using standard cross-entropy loss can compete with state-of-the-art continuous methods, eliminating the need for complex distribution modeling techniques. This finding opens a promising pathway for future investigations, potentially transforming how researchers conceptualize and implement token-based visual synthesis technologies.

結論として、研究者はTokenbridgeを提示します。これは、個別のトークン表現と連続トークン表現の間の長年のギャップを橋渡しします。トレーニング後の量子化アプローチと寸法の自己回帰分解を導入することにより、驚くべき効率で高品質の視覚生成を達成します。この研究は、標準的なクロスエントロピー損失を使用した離散トークンアプローチが最先端の連続的な方法と競合し、複雑な分布モデリング手法の必要性を排除できることを示しています。この発見は、将来の調査のための有望な経路を開き、研究者がトークンベースの視覚合成技術を概念化および実装する方法を潜在的に変換します。

Check out the Paper, GitHub Page and Project. All credit for this research goes to the researchers of this project. Also, feel free to follow us on Twitter and don’t forget to join our 85k+ ML SubReddit.

論文、githubページ、プロジェクトをご覧ください。この研究のすべてのクレジットは、このプロジェクトの研究者に送られます。また、Twitterでお気軽にフォローしてください。85K+ ML SubredDitに参加することを忘れないでください。

免責事項:info@kdj.com

提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。

このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。

2025年03月31日 に掲載されたその他の記事