$84970.406320 USD

6.55%

ethereum

$2232.353309 USD

5.10%

tether

$0.999658 USD

0.10%

xrp

$2.180724 USD

8.22%

bnb

$595.246239 USD

4.24%

solana

$143.544771 USD

11.62%

usd-coin

$1.000023 USD

0.01%

dogecoin

$0.204990 USD

10.18%

cardano

$0.646461 USD

9.37%

tron

$0.236037 USD

7.84%

hedera

$0.230859 USD

25.60%

litecoin

$127.299070 USD

8.30%

chainlink

$14.651941 USD

7.13%

stellar

$0.300809 USD

15.64%

avalanche

$22.030668 USD

7.25%

Nachrichtenartikel zu Kryptowährungen

FFTNET: Anpassungsive Spektralfilterung für effiziente Langstreckenwechselwirkungen

Mar 01, 2025 at 10:37 am

Deep Learning-Modelle haben eine erheblich erweiterte Verarbeitung natürlicher Sprache und Computer Vision, indem sie ein effizientes datengesteuertes Lernen ermöglichen.

The remarkable capabilities of deep learning models in domains like natural language processing and computer vision are a product of efficient data-driven learning. However, a major obstacle to pushing these models even further is the computational burden of self-attention mechanisms, especially when handling long sequences or tasks with extensive data.

Die bemerkenswerten Fähigkeiten von Deep-Learning-Modellen in Domänen wie Verarbeitung natürlicher Sprache und Computer Vision sind ein Produkt effizientes datengesteuertes Lernen. Ein wesentliches Hindernis für die Weiterentwicklung dieser Modelle ist jedoch die Berechnung der Selbstbekämpfungsmechanismen, insbesondere wenn lange Sequenzen oder Aufgaben mit umfangreichen Daten umgegangen werden.

Traditional transformers perform pairwise comparisons between all tokens in a sequence to generate rich representations, an operation that scales quadratically with sequence length. For shorter sequences, this strategy is highly effective, but as sequences become longer, the models struggle with excessive memory usage and slow inference times. This poses a practical limitation for tasks like machine translation with rich context or open-ended code generation, which often involve processing lengthy sequences.

Traditionelle Transformatoren führen paarweise Vergleiche zwischen allen Token in einer Sequenz durch, um reichhaltige Darstellungen zu erzeugen, eine Operation, die sich quadratisch mit der Sequenzlänge skaliert. Für kürzere Sequenzen ist diese Strategie sehr effektiv, aber wenn Sequenzen länger werden, haben die Modelle mit übermäßiger Speicherverwendung und langsamen Inferenzzeiten zu kämpfen. Dies stellt eine praktische Einschränkung für Aufgaben wie maschinelle Übersetzung mit einem reichen Kontext oder einer offenen Codegenerierung dar, die häufig die Verarbeitung langwieriger Sequenzen beinhaltet.

To navigate this computational challenge, researchers have been developing more efficient architectures that can process long sequences without a significant drop in performance. This pursuit has focused on reducing the computational complexity of self-attention while preserving its ability to capture long-range dependencies, which are crucial for modeling the intricate structure of language and visual scenes.

Um diese rechnerische Herausforderung zu steuern, haben Forscher effizientere Architekturen entwickelt, die lange Sequenzen ohne einen signifikanten Leistungsrückgang verarbeiten können. Diese Verfolgung hat sich darauf konzentriert, die rechnerische Komplexität der Selbstbekämpfung zu verringern und gleichzeitig die Fähigkeit zu erhalten, langfristige Abhängigkeiten zu erfassen, die für die Modellierung der komplizierten Struktur von Sprache und visuellen Szenen von entscheidender Bedeutung sind.

One promising avenue has been exploring Fourier-based models for token mixing. These models, such as FNet, utilize the Fast Fourier Transform (FFT) to achieve efficient mixing in O(n log n) time. However, many Fourier-based models rely on a static Fourier transform, which might not be optimal for varying input distributions and tasks. Moreover, FNet's performance in LRA and ImageNet has been reported to be lower than traditional self-attention models.

Eine vielversprechende Avenue untersuchte Fourier-basierte Modelle für das Token-Mischen. Diese Modelle wie FNET verwenden die Fast Fourier -Transformation (FFT), um eine effiziente Mischung in der O (N -Log N) -Zeit zu erreichen. Viele Fourier-basierte Modelle stützen sich jedoch auf eine statische Fourier-Transformation, die für unterschiedliche Eingangsverteilungen und -aufgaben möglicherweise nicht optimal ist. Darüber hinaus wurde berichtet, dass die Leistung von FNET in LRA und ImageNet niedriger ist als herkömmliche Selbstbekämpfungsmodelle.

Another class of methods focuses on low-rank approximations of the attention matrix to achieve near-linear complexity. Models like Performer and Linformer decompose the attention matrix into low-rank components, reducing the computational cost. Nonetheless, these models might introduce additional approximations that could affect the quality of attention computation, especially in capturing fine-grained dependencies between tokens.

Eine andere Klasse von Methoden konzentriert sich auf niedrige Annäherungen an die Aufmerksamkeitsmatrix, um nahezu lineare Komplexität zu erreichen. Modelle wie Performer und Linformer zersetzen die Aufmerksamkeitsmatrix in niedrigrangige Komponenten und senken die Rechenkosten. Trotzdem könnten diese Modelle zusätzliche Näherungen einführen, die die Qualität der Aufmerksamkeitsberechnung beeinflussen könnten, insbesondere bei der Erfassung feinkörniger Abhängigkeiten zwischen Token.

Convolutional architectures have also been integrated to process sequences in a more efficient manner. These models extract hierarchical features from local neighborhoods using convolutional modules and combine them to capture long-range dependencies without direct token comparisons. While convolutional models excel at extracting spatial features in image processing, they might not be as efficient in fully capturing the complex interactions between tokens in natural language or the diverse patterns in image data.

Faltungsarchitekturen wurden auch effizienter in die Prozesssequenzen integriert. Diese Modelle extrahieren hierarchische Merkmale aus lokalen Nachbarschaften unter Verwendung von Faltungsmodulen und kombinieren sie, um langfristige Abhängigkeiten ohne direkte Token-Vergleiche zu erfassen. Während sich Faltungsmodelle bei der Extraktion räumlicher Merkmale in der Bildverarbeitung übertreffen, können sie möglicherweise nicht so effizient die komplexen Wechselwirkungen zwischen Token in der natürlichen Sprache oder den verschiedenen Mustern der Bilddaten vollständig erfassen.

Now, a research team from the University of Southern California has introduced FFTNet, an adaptive spectral filtering framework that introduces a novel variant of the Fast Fourier Transform (FFT) for global token mixing in O(n log n) time. In contrast to traditional self-attention, which performs pairwise comparisons between all tokens, FFTNet operates on the frequency domain, presenting an efficient and scalable approach for processing long sequences.

Jetzt hat ein Forschungsteam der University of Southern California FFTNET eingeführt, ein adaptives Spektralfiltergerüst, das eine neuartige Variante der Fast Fourier -Transformation (FFT) für die globale Token -Mischung in O (n log n) Zeit einführt. Im Gegensatz zur traditionellen Selbstbekämpfung, die paarweise Vergleiche zwischen allen Token durchführt, arbeitet FFTNet auf der Frequenzdomäne und zeigt einen effizienten und skalierbaren Ansatz für die Verarbeitung langer Sequenzen.

At the heart of FFTNet lies a learnable spectral filter that refines the frequency components of the input signal. This filter adjusts the amplitude and phase of different frequencies based on their contribution to the task at hand. The filtered frequency representation is then modulated by a novel activation function, termed modReLU, which applies a standard ReLU function to the real and imaginary components of the complex Fourier coefficients. This step introduces non-linearity into the model, enabling it to learn more complex mappings between input and output.

Im Zentrum von FFTNET liegt ein lernbarer spektraler Filter, der die Frequenzkomponenten des Eingangssignals verfeinert. Dieser Filter passt die Amplitude und Phase unterschiedlicher Frequenzen an, basierend auf ihrem Beitrag zur jeweiligen Aufgabe. Die filtrierte Frequenzdarstellung wird dann durch eine neuartige Aktivierungsfunktion moduliert, die als Modrelu bezeichnet wird und eine Standard -Relu -Funktion auf die realen und imaginären Komponenten der komplexen Fourier -Koeffizienten anwendet. In diesem Schritt wird die Nichtlinearität in das Modell eingeführt, sodass es komplexere Zuordnungen zwischen Eingabe und Ausgabe erlernen kann.

Finally, the modified frequency representation is transformed back into the original sequence domain using the inverse FFT, and a global context vector is computed from the spectral domain to guide the spectral filter. This integration of spatial and spectral information allows FFTNet to capture both local and global dependencies in the input sequence.

Schließlich wird die modifizierte Frequenzdarstellung unter Verwendung des inversen FFT wieder in die ursprüngliche Sequenzdomäne umgewandelt, und ein globaler Kontextvektor wird aus der Spektraldomäne berechnet, um den Spektralfilter zu leiten. Diese Integration räumlicher und spektraler Informationen ermöglicht es FFTNet, sowohl lokale als auch globale Abhängigkeiten in der Eingabesequenz zu erfassen.

In their experiments, the researchers systematically evaluated the performance of FFTNet on the Long Range Arena (LRA) and ImageNet benchmarks, comparing it with standard Transformer, FNet, and Vision Transformer (ViT) variants. Their results demonstrate that FFTNet achieves superior or comparable performance to existing models in both text and image-based tasks.

In ihren Experimenten bewerteten die Forscher systematisch die Leistung von FFTNET in der Langstreckenarena (LRA) und im Bildnet -Benchmarks und verglich sie mit Standardtransformator-, Fnet- und Vision -Transformator -Varianten (VIT). Ihre Ergebnisse zeigen, dass FFTNET sowohl in Text- als auch in bildbasierten Aufgaben eine überlegene oder vergleichbare Leistung für vorhandene Modelle erzielt.

On the ListOps task of the LRA benchmark, FFTNet attains an accuracy of 37.65%, outperforming both standard Transformer (36.06%) and FNet (35.33%). In text classification tasks, FFTNet consistently shows better performance than its counterparts, showcasing its strength in processing long sequences.

Bei der Listops -Aufgabe des LRA -Benchmarks erreicht FFTNET eine Genauigkeit von 37,65%und übertrifft sowohl den Standardtransformator (36,06%) als auch den Fnet (35,33%). Bei Textklassifizierungsaufgaben zeigt FFTNet konsequent eine bessere Leistung als seine Gegenstücke und zeigt seine Stärke bei der Verarbeitung langer Sequenzen.

For image-based tasks, FFTNet exhibits competitive results. In ImageNet classification, the researchers applied ViT variants with FFTNet for efficient computation. Among them, FFTNetViT-B_16e200 exhibits the highest accuracy of 79.0%, and FFTNetViT_L_14e150 achieves the lowest computational cost in terms of FLOPs. Specifically, FFTNetViT_B_16e200 has a computational cost of 314.3M FLOPs, significantly lower than the standard Vision Transformer, which has 1.3B FLOPs.

Bei bildbasierten Aufgaben weist FFTNET Wettbewerbsergebnisse auf. In der ImageNet -Klassifizierung verwendeten die Forscher VIT -Varianten mit FFTNET zur effizienten Berechnung. Unter ihnen weist FFTNETVIT-B_16E200 die höchste Genauigkeit von 79,0%auf, und FFTNETVIT_L_14E150 erreicht die niedrigsten Rechenkosten in Bezug auf Flops. Insbesondere hat FFTNETVIT_B_16E200 Rechenkosten von 314,3 Mio. Flops, die deutlich niedriger sind als der Standard -Vision -Transformator, der 1,3B Flops hat.

This research highlights the potential of spectral methods for efficient and scalable sequence processing. By introducing an adaptive spectral filtering framework with efficient time complexity and the capacity to capture long-range dependencies, FFTNet provides a promising building block for developing more efficient and powerful deep learning models. As we continue to push

Diese Forschung beleuchtet das Potenzial von spektralen Methoden für eine effiziente und skalierbare Sequenzverarbeitung. Durch die Einführung eines adaptiven Spektralfilterrahmens mit effizienter Zeitkomplexität und der Fähigkeit, langfristige Abhängigkeiten zu erfassen, bietet FFTNET einen vielversprechenden Baustein für die Entwicklung effizientere und leistungsstarke Deep-Lern-Modelle. Während wir weiter drängen

Haftungsausschluss:info@kdj.com

Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren！

Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.

Weitere Artikel veröffentlicht am Mar 01, 2025

Mehr