Capitalisation boursière: $3.5666T 2.870%
Volume(24h): $129.2151B 14.170%
  • Capitalisation boursière: $3.5666T 2.870%
  • Volume(24h): $129.2151B 14.170%
  • Indice de peur et de cupidité:
  • Capitalisation boursière: $3.5666T 2.870%
Cryptos
Les sujets
Cryptospedia
Nouvelles
CryptosTopics
Vidéos
Top News
Cryptos
Les sujets
Cryptospedia
Nouvelles
CryptosTopics
Vidéos
bitcoin
bitcoin

$102650.959537 USD

0.04%

ethereum
ethereum

$3143.610721 USD

-1.62%

xrp
xrp

$3.112987 USD

0.45%

tether
tether

$0.999777 USD

-0.03%

solana
solana

$233.280576 USD

-2.55%

bnb
bnb

$676.885796 USD

-0.27%

usd-coin
usd-coin

$1.000051 USD

0.01%

dogecoin
dogecoin

$0.331944 USD

-0.55%

cardano
cardano

$0.943614 USD

-0.83%

tron
tron

$0.242693 USD

-1.73%

chainlink
chainlink

$23.424739 USD

-3.22%

avalanche
avalanche

$33.482250 USD

-1.59%

stellar
stellar

$0.401846 USD

-1.42%

toncoin
toncoin

$4.873784 USD

-2.06%

hedera
hedera

$0.308794 USD

-2.26%

Articles d’actualité sur les crypto-monnaies

Chaîne de pensée: le raisonnement émerge dans les modèles de langue

Jan 29, 2025 at 05:00 am

Les nouveaux modèles formés pour exprimer une chaîne de pensée prolongée vont généraliser en dehors de leurs domaines de code et de mathématiques révolutionnaires.

Chaîne de pensée: le raisonnement émerge dans les modèles de langue

This post is early to accommodate some last minute travel on my end!

Ce message est tôt pour accueillir des voyages de dernière minute de mon côté!

The new models trained to express extended chain of thought are going to generalize outside of their breakthrough domains of code and math. The “reasoning” process of language models that we use today is chain of thought reasoning. We ask the model to work step by step because it helps it manage complexity, especially in domains where the answer requires precision across multiple specific tokens. The domains where chain of thought (CoT) is most useful today are code, mathematics, and other “reasoning” tasks1. These are the domains where models like o1, R1, Gemini-Thinking, etc. were designed for.

Les nouveaux modèles formés pour exprimer une chaîne de pensée prolongée vont généraliser en dehors de leurs domaines de code et de mathématiques révolutionnaires. Le processus de «raisonnement» des modèles de langue que nous utilisons aujourd'hui est le raisonnement de la chaîne de pensées. Nous demandons au modèle de travailler étape par étape car il l'aide à gérer la complexité, en particulier dans les domaines où la réponse nécessite une précision sur plusieurs jetons spécifiques. Les domaines où la chaîne de pensée (COT) est la plus utile aujourd'hui sont le code, les mathématiques et les autres tâches de «raisonnement »1. Ce sont les domaines où des modèles comme O1, R1, Gemini-Thinking, etc. ont été conçus.

Different intelligences reason in different ways that correspond to how they store and manipulate information. Humans compress a lifetime of experience into our spectacular, low-power brains that draw on past experience almost magically. The words that follow in this blog are also autoregressive, like the output of a language model, but draw on hours and hours of background processing as I converge on this argument.

Différentes intelligences raisonnent de différentes manières qui correspondent à la façon dont elles stockent et manipulent des informations. Les humains compressent une vie d'expérience dans nos cerveaux spectaculaires à faible puissance qui s'appuient presque par magie. Les mots qui suivent dans ce blog sont également autorégressifs, comme la sortie d'un modèle de langue, mais dessinent sur des heures et des heures de traitement d'arrière-plan pendant que je converge sur cet argument.

Language models, on the other hand, are extremely general and do not today have architectures (or use-cases) that continually re-expose them to relevant problems and fold information back in a compressed form. Language models are very large, sophisticated, parametric probability distributions. All of their knowledge and information processing power is stored in the raw weights. Therein, they need a way of processing information that matches this. Chain of thought is that alignment.

Les modèles de langage, en revanche, sont extrêmement généraux et n'ont pas aujourd'hui des architectures (ou des cas d'utilisation) qui les réexpliquent continuellement à des problèmes pertinents et replient les informations sous une forme compressée. Les modèles de langage sont de très grandes distributions de probabilité paramétriques sophistiquées. Toutes leurs connaissances et leur pouvoir de traitement de l'information sont stockées dans les poids bruts. Là-bas, ils ont besoin d'un moyen de traiter les informations qui correspondent à cela. La chaîne de pensée est cet alignement.

Chain of thought reasoning allows information to be naturally processed in smaller chunks, allowing the large, brute force probability distribution to work one token at a time. Chain of thought, while allowing more compute per important token, also allows the models to store intermediate information in their context window without needing explicit recurrence.

Le raisonnement de la chaîne de pensée permet de traiter naturellement les informations en petits morceaux, permettant à la grande distribution de probabilité de force brute de travailler un jeton à la fois. La chaîne de pensée, tout en permettant plus de calcul par jeton important, permet également aux modèles de stocker des informations intermédiaires dans leur fenêtre de contexte sans avoir besoin d'une récidive explicite.

Recurrence is required for reasoning and this can either happen in the parameter or state-space. Chain of thoughts with transformers handles all of this in the state-space of the problems. The humans we look at as the most intelligent have embedded information directly in the parameters of our brains that we can draw on.

Une récidive est requise pour le raisonnement et cela peut se produire dans le paramètre ou l'espace d'état. La chaîne de pensées avec les transformateurs gère tout cela dans l'espace d'état des problèmes. Les humains que nous considérons comme les plus intelligents ont intégré des informations directement dans les paramètres de notre cerveau sur lequel nous pouvons tirer.

Here is the only assumption of this piece — chain of thought is a natural fit for language models to “reason” and therefore one should be optimistic about training methods that are designed to enhance it generalizing to many domains.2 By the end of 2025 we should have ample evidence of this given the pace of the technological development.

Voici la seule hypothèse de cette pièce - la chaîne de pensée est un ajustement naturel pour les modèles de langage à la «raison» et donc il faut être optimiste quant aux méthodes de formation conçues pour l'améliorer en généralisant à de nombreux domaines.2 À la fin de 2025, nous devrait avoir de nombreuses preuves de cela étant donné le rythme du développement technologique.

If the analogies of types of intelligence aren’t convincing enough, a far more practical way to view the new style of training is a method that teaches the model to be better at allocating more compute to harder problems. If the skill is compute allocation, it is fundamental to the models handling a variety of tasks. Today’s reasoning models do not solve this perfectly, but they open the door for doing so precisely.

Si les analogies des types d'intelligence ne sont pas suffisamment convaincantes, un moyen beaucoup plus pratique de voir le nouveau style de formation est une méthode qui apprend au modèle à être meilleur à allouer plus de calcul à des problèmes plus difficiles. Si la compétence est une allocation de calcul, elle est fondamentale pour les modèles qui gèrent une variété de tâches. Les modèles de raisonnement d'aujourd'hui ne résolvent pas cela parfaitement, mais ils ouvrent la porte pour le faire précisément.

The nature of this coming generalization is not that these models are one size fits all, best in all cases: speed, intelligence, price, etc. There’s still no free lunch. A realistic outcome for reasoning heavy models in the next 0-3 years is a world where:

La nature de cette généralisation à venir n'est pas que ces modèles soient une taille unique, mieux dans tous les cas: vitesse, intelligence, prix, etc. Il n'y a toujours pas de déjeuner gratuit. Un résultat réaliste pour raisonner les modèles lourds au cours des 0 à 3 prochaines années est un monde où:

Reasoning trained models are superhuman on tasks with verifiable domains, like those with initial progress: Code, math, etc.

Les modèles formés de raisonnement sont surhumains sur les tâches avec des domaines vérifiables, comme ceux avec une progression initiale: code, mathématiques, etc.

Reasoning trained models are well better in peak performance than existing autoregressive models in many domains we would not expect and are not necessarily verifiable.

Les modèles formés de raisonnement sont bien meilleurs dans les performances de pointe que les modèles autorégressifs existants dans de nombreux domaines auxquels nous ne nous attendrions pas et ne sont pas nécessairement vérifiables.

Reasoning trained models are still better in performance at the long-tail of tasks, but worse in cost given the high inference costs of long-context.

Les modèles formés de raisonnement sont encore meilleurs en performances à la longue queue des tâches, mais pire en coût étant donné les coûts d'inférence élevés du contexte long.

Many of the leading figures in AI have been saying for quite some time that powerful AI is going to be “spikey" when it shows up — meaning that the capabilities and improvements will vary substantially across domains — but encountering this reality is very unintuitive.

Beaucoup des personnalités de l'IA disent depuis un certain temps que l'IA puissante sera «épineuse» lorsqu'elle apparaît - ce qui signifie que les capacités et les améliorations varieront considérablement à l'autre - mais rencontrer cette réalité est très inutile.

Some evidence for generalization of reasoning models already exists.

Certaines preuves de la généralisation des modèles de raisonnement existe déjà.

OpenAI has already published multiple safety-oriented research projects with their new reasoning models in Deliberative Alignment: Reasoning Enables Safer Language Models and Trading Inference-Time Compute for Adversarial Robustness. These papers show their new methods can be translated to various safety domains, i.e. model safety policies and jailbreaking. The deliberative alignment paper shows them integrating a softer reward signal into the reasoning training — having a language model check how the safety policies apply to outputs.

OpenAI a déjà publié plusieurs projets de recherche axés sur la sécurité avec leurs nouveaux modèles de raisonnement en alignement délibératif: le raisonnement permet des modèles de langage plus sûrs et le calcul du temps d'inférence pour la robustesse adversaire. Ces articles montrent que leurs nouvelles méthodes peuvent être traduites dans divers domaines de sécurité, c'est-à-dire les politiques de sécurité des modèles et le jailbreak. Le papier d'alignement délibératif les montre à intégrer un signal de récompense plus doux dans la formation de raisonnement - en faisant un modèle de langue vérifie comment les politiques de sécurité s'appliquent aux sorties.

An unsurprising quote from the deliberative alignment release related to generalization:

Une citation sans surprise de la version d'alignement délibérative liée à la généralisation:

we find that deliberative alignment enables strong generalization to out-of-distribution safety scenarios.

Nous constatons que l'alignement délibératif permet une forte généralisation des scénarios de sécurité hors distribution.

Safety, qualitatively, is very orthogonal to traditional reasoning problems. Safety is very subjective to the information provided and subtle context, where math and coding problems are often about many small, forward processing steps towards a final goal. More behaviors will fit in between those.

La sécurité, qualitativement, est très orthogonale aux problèmes de raisonnement traditionnels. La sécurité est très subjective aux informations fournies et au contexte subtil, où les problèmes de mathématiques et de codage concernent souvent de nombreuses petites étapes de traitement vers l'avenir vers un objectif final. Plus de comportements s'adapteront entre ceux-ci.

This generative verifier for safety is not a ground truth signal and could theoretically be subject to reward hacking, but it was avoided. Generative verifiers will be crucial to expanding this training to countless domains — they’re easy to use and largely a new development

Ce vérificateur génératif de la sécurité n'est pas un signal de vérité au sol et pourrait théoriquement être soumis à un piratage de récompense, mais il a été évité. Les vérificateurs génératifs seront cruciaux pour étendre cette formation à d'innombrables domaines - ils sont faciles à utiliser et en grande partie un nouveau développement

Clause de non-responsabilité:info@kdj.com

The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!

If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.

Autres articles publiés sur Jan 30, 2025