|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
拡張された一連の思考を表現するために訓練された新しいモデルは、コードと数学の画期的なドメインの外で一般化されます。
This post is early to accommodate some last minute travel on my end!
この投稿は、私の最後の最後の旅行に対応するために早いです!
The new models trained to express extended chain of thought are going to generalize outside of their breakthrough domains of code and math. The “reasoning” process of language models that we use today is chain of thought reasoning. We ask the model to work step by step because it helps it manage complexity, especially in domains where the answer requires precision across multiple specific tokens. The domains where chain of thought (CoT) is most useful today are code, mathematics, and other “reasoning” tasks1. These are the domains where models like o1, R1, Gemini-Thinking, etc. were designed for.
拡張された一連の思考を表現するために訓練された新しいモデルは、コードと数学の画期的なドメインの外で一般化されます。今日使用している言語モデルの「推論」プロセスは、一連の思考推論です。モデルには、複雑さを管理するのに役立つため、モデルに段階的に動作するように依頼します。 Chain of Thound(Cot)が今日最も役立つドメインは、コード、数学、その他の「推論」タスク1です。これらは、O1、R1、Gemini-Thinkingなどのモデルが設計されたドメインです。
Different intelligences reason in different ways that correspond to how they store and manipulate information. Humans compress a lifetime of experience into our spectacular, low-power brains that draw on past experience almost magically. The words that follow in this blog are also autoregressive, like the output of a language model, but draw on hours and hours of background processing as I converge on this argument.
さまざまなインテリジェンスが、情報を保存および操作する方法に対応するさまざまな方法で推論します。人間は、過去の経験をほぼ魔法のように引き出す壮大で低電力の脳に生涯の経験を圧縮します。このブログで続く言葉は、言語モデルの出力のように自動摂取的ですが、この引数に収束するときの数時間と数時間のバックグラウンド処理を利用しています。
Language models, on the other hand, are extremely general and do not today have architectures (or use-cases) that continually re-expose them to relevant problems and fold information back in a compressed form. Language models are very large, sophisticated, parametric probability distributions. All of their knowledge and information processing power is stored in the raw weights. Therein, they need a way of processing information that matches this. Chain of thought is that alignment.
一方、言語モデルは非常に一般的であり、今日では、関連する問題に継続的に再露出し、圧縮形式で情報を折り返すアーキテクチャ(またはユースケース)がありません。言語モデルは非常に大きく、洗練されたパラメトリック確率分布です。彼らの知識と情報処理能力はすべて、生の重みに保存されています。そこで、彼らはこれに一致する情報を処理する方法が必要です。思考の連鎖とは、その整合性です。
Chain of thought reasoning allows information to be naturally processed in smaller chunks, allowing the large, brute force probability distribution to work one token at a time. Chain of thought, while allowing more compute per important token, also allows the models to store intermediate information in their context window without needing explicit recurrence.
一連の思考推論により、情報をより小さなチャンクで自然に処理することができ、大規模なブルートフォースの確率分布が一度に1つのトークンを1つずつ動作させることができます。重要なトークンごとにより多くの計算を可能にしながら、思考の連鎖により、明示的な再発を必要とせずに、モデルがコンテキストウィンドウに中間情報を保存することもできます。
Recurrence is required for reasoning and this can either happen in the parameter or state-space. Chain of thoughts with transformers handles all of this in the state-space of the problems. The humans we look at as the most intelligent have embedded information directly in the parameters of our brains that we can draw on.
推論には再発が必要であり、これはパラメーターまたは状態空間で発生する可能性があります。トランスとの思考の連鎖は、これらすべてを問題の状態空間で処理します。私たちが最も知的な人間は、私たちが引き出すことができる脳のパラメーターに直接情報を埋め込んだものです。
Here is the only assumption of this piece — chain of thought is a natural fit for language models to “reason” and therefore one should be optimistic about training methods that are designed to enhance it generalizing to many domains.2 By the end of 2025 we should have ample evidence of this given the pace of the technological development.
この作品の唯一の仮定は次のとおりです。一連の思考は、言語モデルが「理由」に自然に適合しているため、多くのドメインに一般化するように設計されたトレーニング方法について楽観的である必要があります。技術開発のペースを考えると、これの十分な証拠があるはずです。
If the analogies of types of intelligence aren’t convincing enough, a far more practical way to view the new style of training is a method that teaches the model to be better at allocating more compute to harder problems. If the skill is compute allocation, it is fundamental to the models handling a variety of tasks. Today’s reasoning models do not solve this perfectly, but they open the door for doing so precisely.
インテリジェンスの種類の類推が十分に説得力がない場合、新しいスタイルのトレーニングを見るためのはるかに実用的な方法は、より困難な問題により多くの計算を割り当てるのによりモデルをより良いものにすることを教える方法です。スキルが計算されている場合、さまざまなタスクを処理するモデルの基本です。今日の推論モデルはこれを完全に解決しませんが、それを正確に行うための扉を開きます。
The nature of this coming generalization is not that these models are one size fits all, best in all cases: speed, intelligence, price, etc. There’s still no free lunch. A realistic outcome for reasoning heavy models in the next 0-3 years is a world where:
この来る一般化の性質は、これらのモデルがすべてのサイズに適合し、すべての場合に最適であるということではありません。スピード、インテリジェンス、価格などです。まだ無料のランチはありません。今後0〜3年で重いモデルを推論するための現実的な結果は、次のような世界です。
Reasoning trained models are superhuman on tasks with verifiable domains, like those with initial progress: Code, math, etc.
Reasoning Trained Modelsは、コード、数学など、最初の進捗状況のような検証可能なドメインを持つタスクの超人です。
Reasoning trained models are well better in peak performance than existing autoregressive models in many domains we would not expect and are not necessarily verifiable.
推論訓練されたモデルは、私たちが予想していない多くのドメインで既存の自己回帰モデルよりもピークパフォーマンスではるかに優れており、必ずしも検証可能ではありません。
Reasoning trained models are still better in performance at the long-tail of tasks, but worse in cost given the high inference costs of long-context.
推論訓練されたモデルは、タスクのロングテールでのパフォーマンスが依然として優れていますが、長いコンテキストの推論コストが高いことを考えると、コストが悪化しています。
Many of the leading figures in AI have been saying for quite some time that powerful AI is going to be “spikey" when it shows up — meaning that the capabilities and improvements will vary substantially across domains — but encountering this reality is very unintuitive.
AIの主要な数字の多くは、かなり長い間、AIが現れると「スパイキー」になると言ってきました。つまり、機能と改善はドメイン間で大きく異なりますが、この現実に遭遇することは非常に直感的ではありません。
Some evidence for generalization of reasoning models already exists.
推論モデルの一般化のいくつかの証拠はすでに存在しています。
OpenAI has already published multiple safety-oriented research projects with their new reasoning models in Deliberative Alignment: Reasoning Enables Safer Language Models and Trading Inference-Time Compute for Adversarial Robustness. These papers show their new methods can be translated to various safety domains, i.e. model safety policies and jailbreaking. The deliberative alignment paper shows them integrating a softer reward signal into the reasoning training — having a language model check how the safety policies apply to outputs.
Openaiは、審議の新しい推論モデルを備えた複数の安全指向の研究プロジェクトを既に公開しています。推論により、より安全な言語モデルと敵対的な堅牢性のための取引推論時間計算が可能になります。これらの論文は、新しい方法がさまざまな安全ドメイン、すなわちモデルの安全ポリシーと脱獄に翻訳できることを示しています。審議用アラインメントペーパーは、彼らが柔らかい報酬信号を推論トレーニングに統合することを示しています。
An unsurprising quote from the deliberative alignment release related to generalization:
一般化に関連する審議アラインメントリリースからの驚くことのない引用:
we find that deliberative alignment enables strong generalization to out-of-distribution safety scenarios.
審議的アライメントにより、分散型の安全シナリオに強力な一般化が可能になることがわかります。
Safety, qualitatively, is very orthogonal to traditional reasoning problems. Safety is very subjective to the information provided and subtle context, where math and coding problems are often about many small, forward processing steps towards a final goal. More behaviors will fit in between those.
定性的に、安全性は、従来の推論の問題に対して非常に直交しています。安全性は、提供された情報と微妙なコンテキストに非常に主観的です。この場合、数学とコーディングの問題は、多くの場合、最終目標に向けた多くの小規模な前向き処理ステップについてです。それらの間には、より多くの動作が適合します。
This generative verifier for safety is not a ground truth signal and could theoretically be subject to reward hacking, but it was avoided. Generative verifiers will be crucial to expanding this training to countless domains — they’re easy to use and largely a new development
安全性のためのこの生成検証剤はグラウンドトゥルースシグナルではなく、理論的にはハッキングに報酬を与える可能性がありますが、回避されました。このトレーニングを無数のドメインに拡張するためには、生成検証剤が重要です。それらは使いやすく、主に新しい開発です
免責事項:info@kdj.com
The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!
If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.