$84970.406320 USD

6.55%

ethereum

$2232.353309 USD

5.10%

tether

$0.999658 USD

0.10%

xrp

$2.180724 USD

8.22%

bnb

$595.246239 USD

4.24%

solana

$143.544771 USD

11.62%

usd-coin

$1.000023 USD

0.01%

dogecoin

$0.204990 USD

10.18%

cardano

$0.646461 USD

9.37%

tron

$0.236037 USD

7.84%

hedera

$0.230859 USD

25.60%

litecoin

$127.299070 USD

8.30%

chainlink

$14.651941 USD

7.13%

stellar

$0.300809 USD

15.64%

avalanche

$22.030668 USD

7.25%

Articles d’actualité sur les crypto-monnaies

FFTNET: filtrage spectral adaptatif pour des interactions à long terme efficaces

Mar 01, 2025 at 10:37 am

Les modèles d'apprentissage en profondeur ont un traitement du langage naturel et une vision informatique considérablement avancés en permettant un apprentissage efficace basé sur les données.

The remarkable capabilities of deep learning models in domains like natural language processing and computer vision are a product of efficient data-driven learning. However, a major obstacle to pushing these models even further is the computational burden of self-attention mechanisms, especially when handling long sequences or tasks with extensive data.

Les capacités remarquables des modèles d'apprentissage en profondeur dans des domaines comme le traitement du langage naturel et la vision par ordinateur sont le produit d'un apprentissage efficace basé sur les données. Cependant, un obstacle majeur à la poussée de ces modèles encore plus est la charge de calcul des mécanismes d'auto-agencement, en particulier lors de la gestion de longues séquences ou tâches avec des données étendues.

Traditional transformers perform pairwise comparisons between all tokens in a sequence to generate rich representations, an operation that scales quadratically with sequence length. For shorter sequences, this strategy is highly effective, but as sequences become longer, the models struggle with excessive memory usage and slow inference times. This poses a practical limitation for tasks like machine translation with rich context or open-ended code generation, which often involve processing lengthy sequences.

Les transformateurs traditionnels effectuent des comparaisons par paires entre tous les jetons dans une séquence pour générer des représentations riches, une opération qui évolue quadratique avec la longueur de séquence. Pour les séquences plus courtes, cette stratégie est très efficace, mais à mesure que les séquences deviennent plus longues, les modèles luttent avec une utilisation excessive de la mémoire et des temps d'inférence lents. Cela pose une limitation pratique pour des tâches telles que la traduction automatique avec un contexte riche ou la génération de code ouverte, qui impliquent souvent le traitement de séquences longues.

To navigate this computational challenge, researchers have been developing more efficient architectures that can process long sequences without a significant drop in performance. This pursuit has focused on reducing the computational complexity of self-attention while preserving its ability to capture long-range dependencies, which are crucial for modeling the intricate structure of language and visual scenes.

Pour naviguer dans ce défi de calcul, les chercheurs ont développé des architectures plus efficaces qui peuvent traiter de longues séquences sans une baisse significative des performances. Cette poursuite s'est concentrée sur la réduction de la complexité de calcul de l'attention de l'auto-agence tout en préservant sa capacité à capturer des dépendances à long terme, qui sont cruciales pour modéliser la structure complexe du langage et des scènes visuelles.

One promising avenue has been exploring Fourier-based models for token mixing. These models, such as FNet, utilize the Fast Fourier Transform (FFT) to achieve efficient mixing in O(n log n) time. However, many Fourier-based models rely on a static Fourier transform, which might not be optimal for varying input distributions and tasks. Moreover, FNet's performance in LRA and ImageNet has been reported to be lower than traditional self-attention models.

Une avenue prometteuse a exploré des modèles basés sur des Fourier pour le mélange de jetons. Ces modèles, tels que FNET, utilisent la transformée de Fourier rapide (FFT) pour obtenir un mélange efficace en temps O (n log n). Cependant, de nombreux modèles à base de Fourier reposent sur une transformée de Fourier statique, qui pourrait ne pas être optimal pour différentes distributions d'entrée et tâches. De plus, les performances de FNET dans LRA et ImageNet auraient été inférieures à celles des modèles d'auto-agence d'auto-agence traditionnels.

Another class of methods focuses on low-rank approximations of the attention matrix to achieve near-linear complexity. Models like Performer and Linformer decompose the attention matrix into low-rank components, reducing the computational cost. Nonetheless, these models might introduce additional approximations that could affect the quality of attention computation, especially in capturing fine-grained dependencies between tokens.

Une autre classe de méthodes se concentre sur les approximations de faible rang de la matrice d'attention pour atteindre une complexité presque linéaire. Des modèles comme l'interprète et le formateur lincomposent la matrice d'attention en composants de faible rang, réduisant le coût de calcul. Néanmoins, ces modèles pourraient introduire des approximations supplémentaires qui pourraient affecter la qualité du calcul de l'attention, en particulier pour capturer des dépendances à grains fins entre les jetons.

Convolutional architectures have also been integrated to process sequences in a more efficient manner. These models extract hierarchical features from local neighborhoods using convolutional modules and combine them to capture long-range dependencies without direct token comparisons. While convolutional models excel at extracting spatial features in image processing, they might not be as efficient in fully capturing the complex interactions between tokens in natural language or the diverse patterns in image data.

Des architectures convolutionnelles ont également été intégrées pour traiter les séquences de manière plus efficace. Ces modèles extraient les caractéristiques hiérarchiques des quartiers locaux à l'aide de modules convolutionnels et les combinent pour capturer des dépendances à longue portée sans comparaisons de jetons directs. Bien que les modèles convolutionnels excellent dans l'extraction des caractéristiques spatiales dans le traitement de l'image, ils pourraient ne pas être aussi efficaces pour capturer pleinement les interactions complexes entre les jetons en langage naturel ou les motifs divers des données d'image.

Now, a research team from the University of Southern California has introduced FFTNet, an adaptive spectral filtering framework that introduces a novel variant of the Fast Fourier Transform (FFT) for global token mixing in O(n log n) time. In contrast to traditional self-attention, which performs pairwise comparisons between all tokens, FFTNet operates on the frequency domain, presenting an efficient and scalable approach for processing long sequences.

Maintenant, une équipe de recherche de l'Université de Californie du Sud a introduit FFTNET, un cadre de filtrage spectral adaptatif qui introduit une nouvelle variante de la transformée de Fourier rapide (FFT) pour le mélange de jetons global en temps O (n log n). Contrairement à l'auto-atténuer traditionnel, qui effectue des comparaisons par paires entre tous les jetons, FFTNET fonctionne sur le domaine de fréquence, présentant une approche efficace et évolutive pour le traitement de séquences longues.

At the heart of FFTNet lies a learnable spectral filter that refines the frequency components of the input signal. This filter adjusts the amplitude and phase of different frequencies based on their contribution to the task at hand. The filtered frequency representation is then modulated by a novel activation function, termed modReLU, which applies a standard ReLU function to the real and imaginary components of the complex Fourier coefficients. This step introduces non-linearity into the model, enabling it to learn more complex mappings between input and output.

Au cœur de FFTNET se trouve un filtre spectral apprenable qui affine les composants de fréquence du signal d'entrée. Ce filtre ajuste l'amplitude et la phase de différentes fréquences en fonction de leur contribution à la tâche à accomplir. La représentation de fréquence filtrée est ensuite modulée par une nouvelle fonction d'activation, appelée Modrelu, qui applique une fonction RELU standard aux composants réels et imaginaires des coefficients de Fourier complexes. Cette étape introduit la non-linéarité dans le modèle, lui permettant d'apprendre des mappages plus complexes entre l'entrée et la sortie.

Finally, the modified frequency representation is transformed back into the original sequence domain using the inverse FFT, and a global context vector is computed from the spectral domain to guide the spectral filter. This integration of spatial and spectral information allows FFTNet to capture both local and global dependencies in the input sequence.

Enfin, la représentation de fréquence modifiée est transformée en domaine de séquence d'origine à l'aide de la FFT inverse, et un vecteur de contexte global est calculé à partir du domaine spectral pour guider le filtre spectral. Cette intégration des informations spatiales et spectrales permet à FFTNET de capturer les dépendances locales et globales dans la séquence d'entrée.

In their experiments, the researchers systematically evaluated the performance of FFTNet on the Long Range Arena (LRA) and ImageNet benchmarks, comparing it with standard Transformer, FNet, and Vision Transformer (ViT) variants. Their results demonstrate that FFTNet achieves superior or comparable performance to existing models in both text and image-based tasks.

Dans leurs expériences, les chercheurs ont systématiquement évalué les performances de FFTNET sur l'arène à longue portée (LRA) et les repères ImageNet, en le comparant avec des variantes de transformateur, FNET et Vision Transformateur (VIT) standard. Leurs résultats démontrent que FFTNET obtient des performances supérieures ou comparables aux modèles existants dans les tâches en texte et en image.

On the ListOps task of the LRA benchmark, FFTNet attains an accuracy of 37.65%, outperforming both standard Transformer (36.06%) and FNet (35.33%). In text classification tasks, FFTNet consistently shows better performance than its counterparts, showcasing its strength in processing long sequences.

Dans la tâche ListOps de la référence LRA, FFTNET atteint une précision de 37,65%, surperformant à la fois le transformateur standard (36,06%) et le FNET (35,33%). Dans les tâches de classification de texte, FFTNET montre systématiquement de meilleures performances que ses homologues, présentant sa force dans le traitement des séquences longues.

For image-based tasks, FFTNet exhibits competitive results. In ImageNet classification, the researchers applied ViT variants with FFTNet for efficient computation. Among them, FFTNetViT-B_16e200 exhibits the highest accuracy of 79.0%, and FFTNetViT_L_14e150 achieves the lowest computational cost in terms of FLOPs. Specifically, FFTNetViT_B_16e200 has a computational cost of 314.3M FLOPs, significantly lower than the standard Vision Transformer, which has 1.3B FLOPs.

Pour les tâches basées sur l'image, FFTNET présente des résultats compétitifs. Dans la classification ImageNet, les chercheurs ont appliqué des variantes Vit avec FFTNET pour un calcul efficace. Parmi eux, FFTNETVIT-B_16E200 présente la précision la plus élevée de 79,0%, et FFTNETVIT_L_14E150 atteint le coût de calcul le plus bas en termes de flops. Plus précisément, FFTNETVIT_B_16E200 a un coût de calcul de 314,3 m de flops, nettement inférieur au transformateur de vision standard, qui a des flops de 1,3B.

This research highlights the potential of spectral methods for efficient and scalable sequence processing. By introducing an adaptive spectral filtering framework with efficient time complexity and the capacity to capture long-range dependencies, FFTNet provides a promising building block for developing more efficient and powerful deep learning models. As we continue to push

Cette recherche met en évidence le potentiel des méthodes spectrales pour un traitement de séquence efficace et évolutif. En introduisant un cadre de filtrage spectral adaptatif avec une complexité temporelle efficace et la capacité de capturer des dépendances à long terme, FFTNET fournit un élément de construction prometteur pour développer des modèles d'apprentissage en profondeur plus efficaces et puissants. Alors que nous continuons à pousser

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie！

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Mar 01, 2025

Plus