|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Eine einfache Aufschlüsselung von „Aufmerksamkeit ist alles, was Sie brauchen“¹
A straightforward breakdown of “Attention is All You Need”¹
Eine einfache Aufschlüsselung von „Aufmerksamkeit ist alles, was Sie brauchen“¹
Aveek Goswami
Aveek Goswami
Follow
Folgen
Towards Data Science
Auf dem Weg zur Datenwissenschaft
--
--
Listen
Hören
Share
Aktie
The transformer came out in 2017. There have been many, many articles explaining how it works, but I often find them either going too deep into the math or too shallow on the details. I end up spending as much time googling (or chatGPT-ing) as I do reading, which isn’t the best approach to understanding a topic. That brought me to writing this article, where I attempt to explain the most revolutionary aspects of the transformer while keeping it succinct and simple for anyone to read.
Der Transformator kam 2017 auf den Markt. Es gab viele, viele Artikel, in denen erklärt wurde, wie er funktioniert, aber ich finde oft, dass sie entweder zu tief in die Mathematik eintauchen oder zu oberflächlich ins Detail gehen. Am Ende verbringe ich genauso viel Zeit mit Googeln (oder chatten mit GPT) wie mit Lesen, was nicht der beste Ansatz ist, um ein Thema zu verstehen. Das brachte mich dazu, diesen Artikel zu schreiben, in dem ich versuche, die revolutionärsten Aspekte des Transformators zu erklären und ihn gleichzeitig prägnant und einfach zu halten, damit jeder ihn lesen kann.
This article assumes a general understanding of machine learning principles.
Dieser Artikel setzt ein allgemeines Verständnis der Prinzipien des maschinellen Lernens voraus.
The ideas behind the Transformer led us to the era of Generative AI
Die Ideen hinter dem Transformer führten uns in die Ära der generativen KI
Transformers represented a new architecture of sequence transduction models. A sequence model is a type of model that transforms an input sequence to an output sequence. This input sequence can be of various data types, such as characters, words, tokens, bytes, numbers, phonemes (speech recognition), and may also be multimodal¹.
Transformer stellten eine neue Architektur von Sequenztransduktionsmodellen dar. Ein Sequenzmodell ist ein Modelltyp, der eine Eingabesequenz in eine Ausgabesequenz umwandelt. Diese Eingabesequenz kann aus verschiedenen Datentypen bestehen, z. B. Zeichen, Wörter, Token, Bytes, Zahlen, Phoneme (Spracherkennung), und kann auch multimodal sein¹.
Before transformers, sequence models were largely based on recurrent neural networks (RNNs), long short-term memory (LSTM), gated recurrent units (GRUs) and convolutional neural networks (CNNs). They often contained some form of an attention mechanism to account for the context provided by items in various positions of a sequence.
Vor Transformern basierten Sequenzmodelle größtenteils auf rekurrenten neuronalen Netzen (RNNs), langem Kurzzeitgedächtnis (LSTM), Gated Recurrent Units (GRUs) und Faltungsneuronalen Netzen (CNNs). Sie enthielten oft eine Art Aufmerksamkeitsmechanismus, um den Kontext zu berücksichtigen, der von Elementen an verschiedenen Positionen einer Sequenz bereitgestellt wurde.
The downsides of previous models
Die Nachteile der Vorgängermodelle
Hence, introducing the Transformer, which relies entirely on the attention mechanism and does away with the recurrence and convolutions. Attention is what the model uses to focus on different parts of the input sequence at each step of generating an output. The Transformer was the first model to use attention without sequential processing, allowing for parallelisation and hence faster training without losing long-term dependencies. It also performs a constant number of operations between input positions, regardless of how far apart they are.
Daher wird der Transformer eingeführt, der vollständig auf dem Aufmerksamkeitsmechanismus basiert und Wiederholungen und Windungen beseitigt. Aufmerksamkeit ist das, was das Modell verwendet, um sich bei jedem Schritt der Generierung einer Ausgabe auf verschiedene Teile der Eingabesequenz zu konzentrieren. Der Transformer war das erste Modell, das Aufmerksamkeit ohne sequentielle Verarbeitung nutzte, was eine Parallelisierung und damit ein schnelleres Training ohne Verlust langfristiger Abhängigkeiten ermöglichte. Außerdem führt es eine konstante Anzahl von Operationen zwischen Eingabepositionen aus, unabhängig davon, wie weit diese voneinander entfernt sind.
Walking through the Transformer model architecture
Rundgang durch die Transformer-Modellarchitektur
The important features of the transformer are: tokenisation, the embedding layer, the attention mechanism, the encoder and the decoder. Let’s imagine an input sequence in french: “Je suis etudiant” and a target output sequence in English “I am a student” (I am blatantly copying from this link, which explains the process very descriptively)
Die wichtigen Merkmale des Transformators sind: Tokenisierung, die Einbettungsschicht, der Aufmerksamkeitsmechanismus, der Encoder und der Decoder. Stellen wir uns eine Eingabesequenz auf Französisch vor: „Je suis etudiant“ und eine Zielausgabesequenz auf Englisch „I am a student“ (Ich kopiere ganz offensichtlich von diesem Link, der den Prozess sehr anschaulich erklärt)
Tokenisation
Tokenisierung
The input sequence of words is converted into tokens of 3–4 characters long
Die eingegebene Wortfolge wird in Token mit einer Länge von 3–4 Zeichen umgewandelt
Embeddings
Einbettungen
The input and output sequence are mapped to a sequence of continuous representations, z, which represents the input and output embeddings. Each token will be represented by an embedding to capture some kind of meaning, which helps in computing its relationship to other tokens; this embedding will be represented as a vector. To create these embeddings, we use the vocabulary of the training dataset, which contains every unique output token that is being used to train the model. We then determine an appropriate embedding dimension, which corresponds to the size of the vector representation for each token; higher embedding dimensions will better capture more complex / diverse / intricate meanings and relationships. The dimensions of the embedding matrix, for vocabulary size V and embedding dimension D, hence becomes V x D, making it a high-dimensional vector.
Die Eingabe- und Ausgabesequenz werden einer Folge kontinuierlicher Darstellungen z zugeordnet, die die Eingabe- und Ausgabeeinbettungen darstellt. Jeder Token wird durch eine Einbettung dargestellt, um eine Bedeutung zu erfassen, die bei der Berechnung seiner Beziehung zu anderen Token hilft. Diese Einbettung wird als Vektor dargestellt. Um diese Einbettungen zu erstellen, verwenden wir das Vokabular des Trainingsdatensatzes, der jedes einzelne Ausgabetoken enthält, das zum Trainieren des Modells verwendet wird. Anschließend bestimmen wir eine geeignete Einbettungsdimension, die der Größe der Vektordarstellung für jedes Token entspricht; Höhere Einbettungsdimensionen erfassen komplexere/vielfältigere/kompliziertere Bedeutungen und Beziehungen besser. Die Dimensionen der Einbettungsmatrix für die Vokabulargröße V und die Einbettungsdimension D betragen daher V x D, was sie zu einem hochdimensionalen Vektor macht.
At initialisation, these embeddings can be initialised randomly and more accurate embeddings are learned during the training process. The embedding matrix is then updated during training.
Bei der Initialisierung können diese Einbettungen zufällig initialisiert werden und genauere Einbettungen werden während des Trainingsprozesses gelernt. Die Einbettungsmatrix wird dann während des Trainings aktualisiert.
Positional encodings are added to these embeddings because the transformer does not have a built-in sense of the order of tokens.
Diesen Einbettungen werden Positionskodierungen hinzugefügt, da der Transformator nicht über eine eingebaute Erkennung der Reihenfolge der Token verfügt.
Attention mechanism
Aufmerksamkeitsmechanismus
Self-attention is the mechanism where each token in a sequence computes attention scores with every other token in a sequence to understand relationships between all tokens regardless of distance from each other. I’m going to avoid too much math in this article, but you can read up here about the different matrices formed to compute attention scores and hence capture relationships between each token and every other token.
Selbstaufmerksamkeit ist der Mechanismus, bei dem jeder Token in einer Sequenz Aufmerksamkeitswerte mit jedem anderen Token in einer Sequenz berechnet, um die Beziehungen zwischen allen Token unabhängig von der Entfernung voneinander zu verstehen. Ich werde in diesem Artikel zu viel Mathematik vermeiden, aber Sie können sich hier über die verschiedenen Matrizen informieren, die gebildet werden, um Aufmerksamkeitswerte zu berechnen und somit Beziehungen zwischen jedem Token und jedem anderen Token zu erfassen.
These attention scores result in a new set of representations⁴ for each token which is then used in the next layer of processing. During training, the weight matrices are updated through back-propagation, so the model can better account for relationships between tokens.
Diese Aufmerksamkeitswerte führen zu einem neuen Satz von Darstellungen⁴ für jedes Token, der dann in der nächsten Verarbeitungsebene verwendet wird. Während des Trainings werden die Gewichtsmatrizen durch Backpropagation aktualisiert, sodass das Modell Beziehungen zwischen Token besser berücksichtigen kann.
Multi-head attention is just an extension of self-attention. Different attention scores are computed, the results are concatenated and transformed and the resulting representation enhances the model’s ability to capture various complex relationships between tokens.
Mehrkopfaufmerksamkeit ist lediglich eine Erweiterung der Selbstaufmerksamkeit. Es werden verschiedene Aufmerksamkeitswerte berechnet, die Ergebnisse verkettet und transformiert und die resultierende Darstellung verbessert die Fähigkeit des Modells, verschiedene komplexe Beziehungen zwischen Token zu erfassen.
Encoder
Encoder
Input embeddings (built from the input sequence) with positional encodings are fed into the encoder. The input embeddings are 6 layers, with each layer containing 2 sub-layers: multi-head attention and feed forward networks. There is also a residual connection which leads to the output of each layer being LayerNorm(x+Sublayer(x)) as shown. The output of the encoder is a sequence of vectors which are contextualised representations of the inputs after accounting for attention scored. These are then fed to the decoder.
Eingabeeinbettungen (aus der Eingabesequenz erstellt) mit Positionskodierungen werden in den Encoder eingespeist. Die Eingabeeinbettungen bestehen aus 6 Schichten, wobei jede Schicht 2 Unterschichten enthält: Multi-Head-Aufmerksamkeits- und Feed-Forward-Netzwerke. Es gibt auch eine Restverbindung, die dazu führt, dass die Ausgabe jeder Ebene LayerNorm(x+Sublayer(x)) ist, wie gezeigt. Die Ausgabe des Encoders ist eine Folge von Vektoren, die kontextualisierte Darstellungen der Eingaben nach Berücksichtigung der erzielten Aufmerksamkeit sind. Diese werden dann dem Decoder zugeführt.
Decoder
Decoder
Output embeddings (generated from the target output sequence) with positional encodings are fed into the decoder. The decoder also contains 6 layers, and there are
Ausgabeeinbettungen (generiert aus der Zielausgabesequenz) mit Positionskodierungen werden in den Decoder eingespeist. Der Decoder enthält auch 6 Schichten, und das gibt es
Haftungsausschluss:info@kdj.com
The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!
If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.
-
- TRUMP Meme Coin löst Debatte aus, da laut Umfrage 14 % der Amerikaner investieren
- Jan 21, 2025 at 09:40 am
- Donald Trump veränderte den Meme-Coin-Markt, als er am Wochenende TRUMP auf den Markt brachte. Der auf Solana basierende Token wuchs schnell auf eine Marktkapitalisierung von 14 Milliarden US-Dollar
-
- Die ereum Foundation verschiebt 50.000 ETH, um sich den DeFi-Protokollen anzuschließen
- Jan 21, 2025 at 09:40 am
-
- Wird Trumps Regierung die Zukunft der Kryptowährung prägen?
- Jan 21, 2025 at 09:40 am
- Die Kryptowährungslandschaft wird mit der Entstehung einer neuen Führung unter Präsident Trump einer eingehenden Prüfung und Vorfreude unterzogen. Der Markt für digitale Vermögenswerte steht vor transformativen Veränderungen, die seine Entwicklung neu definieren könnten.
-
- Cloudbet fügt Donald Trumps offizielles $TRUMP-Token zu seiner Liste der unterstützten Kryptowährungen hinzu – Bitcoin News
- Jan 21, 2025 at 09:30 am
- Cloudbet, ein bekannter Krypto-Sportwettenanbieter, hat den offiziellen $TRUMP-Token von Präsident Trump zu seiner Liste der über 40 unterstützten Kryptowährungen hinzugefügt.
-
- Monsta Mash ($MASH) – Die beste Kryptowährung, die man vor Donald Trumps Amtseinführung kaufen kann
- Jan 21, 2025 at 09:30 am
- Im Internet herrscht Aufregung, da Händler mit der Amtseinführung von Trump große Preisbewegungen erwarten. Der Krypto-Händler Wajahat meldet einen Anstieg von 108 % bei $TRUMP
-
- Die thereum Foundation bewegt 50.000 ETH in Vorbereitung auf die Teilnahme am DeFi-Protokoll
- Jan 21, 2025 at 09:30 am
- hat seine ETH-Reserven zur Unterstützung kleiner Projekte verwendet, oft mit einem Umsatz von 100 ETH. Die Ethereum Foundation nutzt DeFi, höchstwahrscheinlich den Aave-Tresor. Der Wechsel zu DeFi wurde von Ethereum angekündigt, bekannt unter seiner hww.eth-Adresse.