|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nachrichtenartikel zu Kryptowährungen
Denkkette: Argumentation entsteht in Sprachmodellen
Jan 29, 2025 at 05:00 am
Die neuen Modelle, die geschult wurden, um eine erweiterte Denkkette auszudrücken, werden außerhalb ihrer bahnbrechenden Domänen von Code und Mathematik verallgemeinert.
This post is early to accommodate some last minute travel on my end!
Dieser Beitrag ist früh, um ein paar Last -Minute -Reise an meinem Ende aufzunehmen!
The new models trained to express extended chain of thought are going to generalize outside of their breakthrough domains of code and math. The “reasoning” process of language models that we use today is chain of thought reasoning. We ask the model to work step by step because it helps it manage complexity, especially in domains where the answer requires precision across multiple specific tokens. The domains where chain of thought (CoT) is most useful today are code, mathematics, and other “reasoning” tasks1. These are the domains where models like o1, R1, Gemini-Thinking, etc. were designed for.
Die neuen Modelle, die geschult wurden, um eine erweiterte Denkkette auszudrücken, werden außerhalb ihrer bahnbrechenden Domänen von Code und Mathematik verallgemeinert. Der „Argumentationsprozess“ von Sprachmodellen, die wir heute verwenden, ist die Kette des Denkens. Wir bitten das Modell, Schritt für Schritt zu arbeiten, da es ihm hilft, die Komplexität zu verwalten, insbesondere in Domänen, in denen die Antwort über mehrere spezifische Token hinweg Präzision erfordert. Die Domänen, in denen die Kette des Denkens (COT) heute am nützlichsten ist, sind Code, Mathematik und andere „Argumentations“ -Tasks1. Dies sind die Domänen, in denen Modelle wie O1, R1, Gemini-Denken usw. ausgelegt wurden.
Different intelligences reason in different ways that correspond to how they store and manipulate information. Humans compress a lifetime of experience into our spectacular, low-power brains that draw on past experience almost magically. The words that follow in this blog are also autoregressive, like the output of a language model, but draw on hours and hours of background processing as I converge on this argument.
Verschiedene Intelligenzen begründen auf unterschiedliche Weise, die der Speicherung und Manipulation von Informationen entsprechen. Menschen komprimieren ein Leben lang Erfahrung in unser spektakuläres Gehirn mit geringer Leistung, die fast magisch auf vergangene Erfahrung zurückgreifen. Die Wörter, die in diesem Blog folgen, sind ebenso autoregressiv, wie die Ausgabe eines Sprachmodells, stützen sich jedoch auf die Stunden und Stunden der Hintergrundverarbeitung, während ich dieses Argument konvergiert.
Language models, on the other hand, are extremely general and do not today have architectures (or use-cases) that continually re-expose them to relevant problems and fold information back in a compressed form. Language models are very large, sophisticated, parametric probability distributions. All of their knowledge and information processing power is stored in the raw weights. Therein, they need a way of processing information that matches this. Chain of thought is that alignment.
Sprachmodelle hingegen sind extrem allgemein und haben heute nicht Architekturen (oder Anwendungsfälle), die sie kontinuierlich zu relevanten Problemen und den Informationen in komprimierter Form wiederbeleben. Sprachmodelle sind sehr große, ausgefeilte, parametrische Wahrscheinlichkeitsverteilungen. Alle ihre Wissens- und Informationsverarbeitungsleistung werden in den Rohgewichten gespeichert. Darin benötigen sie eine Möglichkeit, Informationen zu verarbeiten, die damit entspricht. Denkkette ist diese Ausrichtung.
Chain of thought reasoning allows information to be naturally processed in smaller chunks, allowing the large, brute force probability distribution to work one token at a time. Chain of thought, while allowing more compute per important token, also allows the models to store intermediate information in their context window without needing explicit recurrence.
Die Kette des Denkens ermöglicht es, Informationen auf natürliche Weise in kleineren Stücken zu verarbeiten, sodass die große Wahrscheinlichkeitsverteilung der Brute -Kraft gleichzeitig ein Token arbeitet. Die Denkkette ermöglicht es den Modellen auch, mehr Berechnung pro wichtigem Token zu ermöglichen, und können auch Intermediate -Informationen in ihrem Kontextfenster speichern, ohne explizites Rezidiv zu benötigen.
Recurrence is required for reasoning and this can either happen in the parameter or state-space. Chain of thoughts with transformers handles all of this in the state-space of the problems. The humans we look at as the most intelligent have embedded information directly in the parameters of our brains that we can draw on.
Für die Argumentation ist ein erneuten Auftreten erforderlich, und dies kann entweder im Parameter oder im Zustandsraum geschehen. Kette von Gedanken mit Transformatoren verarbeitet all dies im Zustandsraum der Probleme. Die Menschen, die wir als die intelligentesten betrachten, haben Informationen direkt in die Parameter unseres Gehirns eingebettet, auf die wir zurückgreifen können.
Here is the only assumption of this piece — chain of thought is a natural fit for language models to “reason” and therefore one should be optimistic about training methods that are designed to enhance it generalizing to many domains.2 By the end of 2025 we should have ample evidence of this given the pace of the technological development.
Hier ist die einzige Annahme dieses Stücks - die Denkkette ist eine natürliche Passform für Sprachmodelle zu „Vernunft“ und sollte daher optimistisch in Bezug Sollte angesichts des Tempos der technologischen Entwicklung reichlich Hinweise darauf haben.
If the analogies of types of intelligence aren’t convincing enough, a far more practical way to view the new style of training is a method that teaches the model to be better at allocating more compute to harder problems. If the skill is compute allocation, it is fundamental to the models handling a variety of tasks. Today’s reasoning models do not solve this perfectly, but they open the door for doing so precisely.
Wenn die Analogien der Intelligenztypen nicht genug überzeugen, ist eine weitaus praktischere Möglichkeit, den neuen Trainingsstil zu betrachten, eine Methode, die das Modell lehrt, dass es besser härtere Probleme bereitstellt. Wenn es sich bei der Fähigkeit um die Berechnung der Allokation handelt, ist sie für die Modelle von grundlegender Bedeutung, die eine Vielzahl von Aufgaben übernehmen. Die heutigen Argumentationsmodelle lösen dies nicht perfekt, aber sie öffnen dafür die Tür.
The nature of this coming generalization is not that these models are one size fits all, best in all cases: speed, intelligence, price, etc. There’s still no free lunch. A realistic outcome for reasoning heavy models in the next 0-3 years is a world where:
Die Art dieser kommenden Verallgemeinerung ist nicht, dass diese Modelle in allen Fällen eine Größe für alle, die am besten sind: Geschwindigkeit, Intelligenz, Preis usw. Es gibt immer noch kein kostenloses Mittagessen. Ein realistisches Ergebnis, um schwere Modelle in den nächsten 0 bis 3 Jahren zu argumentieren, ist eine Welt, in der:
Reasoning trained models are superhuman on tasks with verifiable domains, like those with initial progress: Code, math, etc.
Argumentation geschultes Modelle sind übermenschlich bei Aufgaben mit überprüfbaren Domänen, wie solche mit anfänglichem Fortschritt: Code, Mathematik usw.
Reasoning trained models are well better in peak performance than existing autoregressive models in many domains we would not expect and are not necessarily verifiable.
In vielen Bereichen würden wir in vielen Bereichen, die wir nicht erwarten würden, und nicht unbedingt überprüfbar sind, und sind nicht unbedingt überprüfbar.
Reasoning trained models are still better in performance at the long-tail of tasks, but worse in cost given the high inference costs of long-context.
Ausgebildete modellierte Modelle sind bei der Langsteigung von Aufgaben immer noch besser, aber angesichts der hohen Inferenzkosten für lange Kontexten.
Many of the leading figures in AI have been saying for quite some time that powerful AI is going to be “spikey" when it shows up — meaning that the capabilities and improvements will vary substantially across domains — but encountering this reality is very unintuitive.
Viele der führenden Figuren in der KI haben seit einiger Zeit gesagt, dass eine starke KI "spikey" sein wird, wenn sie auftaucht - was bedeutet, dass die Fähigkeiten und Verbesserungen in den Bereichen variieren werden - aber die Begegnung dieser Realität ist sehr unintuitiv.
Some evidence for generalization of reasoning models already exists.
Es gibt bereits einige Beweise für die Verallgemeinerung von Argumentationsmodellen.
OpenAI has already published multiple safety-oriented research projects with their new reasoning models in Deliberative Alignment: Reasoning Enables Safer Language Models and Trading Inference-Time Compute for Adversarial Robustness. These papers show their new methods can be translated to various safety domains, i.e. model safety policies and jailbreaking. The deliberative alignment paper shows them integrating a softer reward signal into the reasoning training — having a language model check how the safety policies apply to outputs.
OpenAI hat bereits mehrere sicherheitsorientierte Forschungsprojekte mit ihren neuen Argumentationsmodellen in der beratenden Ausrichtung veröffentlicht: Argumentation ermöglicht sicherere Sprachmodelle und Handels-Inferenz-Zeit-Rechen für kontroverse Robustheit. Diese Papiere zeigen, dass ihre neuen Methoden in verschiedene Sicherheitsbereiche, dh Modellsicherheitsrichtlinien und Jailbreak übersetzt werden können. Das überlegende Ausrichtungspapier zeigt, dass sie ein weicheres Belohnungssignal in das Argumentationstraining integrieren - und ein Sprachmodell überprüfen, wie die Sicherheitsrichtlinien für Ausgaben gelten.
An unsurprising quote from the deliberative alignment release related to generalization:
Ein nicht überraschendes Zitat aus der vorberateten Ausrichtungserscheinung im Zusammenhang mit der Verallgemeinerung:
we find that deliberative alignment enables strong generalization to out-of-distribution safety scenarios.
Wir stellen fest, dass die beratende Ausrichtung eine starke Verallgemeinerung von Sicherheitsszenarien außerhalb der Verteilung ermöglicht.
Safety, qualitatively, is very orthogonal to traditional reasoning problems. Safety is very subjective to the information provided and subtle context, where math and coding problems are often about many small, forward processing steps towards a final goal. More behaviors will fit in between those.
Sicherheit ist qualitativ sehr orthogonal gegenüber traditionellen Argumentationsproblemen. Sicherheit ist sehr subjektiv für die bereitgestellten Informationen und der subtile Kontext, in dem Mathematik- und Codierungsprobleme häufig um viele kleine Vorwärtsverarbeitungsschritte in Richtung eines endgültigen Ziels liegen. Weitere Verhaltensweisen passen zwischen diese.
This generative verifier for safety is not a ground truth signal and could theoretically be subject to reward hacking, but it was avoided. Generative verifiers will be crucial to expanding this training to countless domains — they’re easy to use and largely a new development
Dieser generative Verifier für die Sicherheit ist kein Grundwahrheitssignal und könnte theoretisch dem Belohnungshacking ausgesetzt sein, aber es wurde vermieden. Generative -Verifungsanlagen sind entscheidend für die Ausweitung dieses Trainings auf unzählige Bereiche - sie sind einfach zu bedienen und weitgehend eine neue Entwicklung
Haftungsausschluss:info@kdj.com
The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!
If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.
-
- Tao führt die Liste der AI -Kryptoprojekte nach sozialer Aktivität als Interesse an der Sektorstufe an
- Jan 30, 2025 at 02:40 pm
- Die neuesten Statistiken von Phoenix Group und Lunarcrush enthüllen die Liste der Top -KI -Kryptoprojekte, die auf Erwähnungen und nach dem Engagement nach Social -Media -Plattformen basieren.
-
- Der frühere Senator Bob Menendez überreichte 11-jährige Haftstrafe für die Annahme von Bestechungsgeldern, einschließlich Goldbars und ausländische Agentenverstöße
- Jan 30, 2025 at 02:40 pm
- Der US-Bezirksrichter Sidney Stein erklärte das Urteil nach der Verurteilung des ehemaligen demokratischen Senators im Juli 2024 nach einem neunwöchigen Gerichtsverfahren
-
- Die Münze löst sich als Chase Lawrence auf, wie sie mit dem Gitarristen Joe Memel bestreiten: "Ihre Verhaltensweisen in Konflikt direkt mit meinen Werten"
- Jan 30, 2025 at 02:40 pm
- Chase Lawrence, der Hauptsänger der Band Coin, hat die Auflösung der Gruppe in seinem neuesten Beitrag in den sozialen Medien bestätigt.
-
- Powell befasst sich mit Krypto -Bedenken, die im FSOC -Jahresbericht ausgewählt wurden
- Jan 30, 2025 at 02:40 pm
- Der Vorsitzende der Federal Reserve, Jerome Powell, ging mit Bedenken hin, die im Jahresbericht des Financial Stability Oversight Council aufgeworfen wurden, insbesondere in Bezug auf die Risiken der Kryptowährung.
-
- Qubetiker ($ tics), Kaspa (KAS) und Stacks (STX): Die besten Altcoins für den Kauf im Januar 2025
- Jan 30, 2025 at 02:40 pm
- Die Kryptowährungswelt erlebt eine Welle der Aufregung mit bahnbrechenden Projekten wie Qubetikern, Kaspa und Stapeln, die die Aufmerksamkeit sowohl von erfahrenen Investoren als auch von Neuankömmlingen gleichermaßen auf sich ziehen. Diese Altcoins sind nicht nur im Trend; Sie verändern die Landschaft der Blockchain -Technologie.