時価総額: $2.7117T 1.250%
ボリューム(24時間): $77.7365B -7.290%
  • 時価総額: $2.7117T 1.250%
  • ボリューム(24時間): $77.7365B -7.290%
  • 恐怖と貪欲の指数:
  • 時価総額: $2.7117T 1.250%
暗号
トピック
暗号化
ニュース
暗号造園
動画
トップニュース
暗号
トピック
暗号化
ニュース
暗号造園
動画
bitcoin
bitcoin

$85164.293495 USD

0.46%

ethereum
ethereum

$1631.626805 USD

-0.06%

tether
tether

$0.999902 USD

0.05%

xrp
xrp

$2.140262 USD

-0.29%

bnb
bnb

$585.593727 USD

-0.75%

solana
solana

$129.553695 USD

-2.38%

usd-coin
usd-coin

$0.999953 USD

0.01%

tron
tron

$0.252961 USD

-2.17%

dogecoin
dogecoin

$0.159379 USD

-3.88%

cardano
cardano

$0.637759 USD

-1.07%

unus-sed-leo
unus-sed-leo

$9.434465 USD

0.10%

avalanche
avalanche

$19.984115 USD

-0.50%

chainlink
chainlink

$12.624915 USD

-1.61%

stellar
stellar

$0.241348 USD

0.09%

toncoin
toncoin

$2.899684 USD

1.82%

暗号通貨のニュース記事

推論の非効率性を低下させるために、考えられた推論モデルの隠された状態を探る

2025/04/14 01:32

人工知能システムは、人間スタイルの推論、特に数学と論理をシミュレートすることに大きな進歩を遂げました。これらのモデルは、回答を生成するだけでなく、一連の論理的な手順を歩いて結論に達し、それらの回答がどのように、なぜ作成されるかについての洞察を提供します。しばしばチェーンオブサート(COT)と呼ばれるこの段階的な推論は、マシンが複雑な問題解決タスクをどのように処理するかに不可欠になっています。

推論の非効率性を低下させるために、考えられた推論モデルの隠された状態を探る

Artificial intelligence systems have made remarkable progress in simulating human-style reasoning, especially in domains like mathematics and logic. Unlike typical generative models, these systems generate a series of intermediate steps to reach a final answer, offering insights into the reasoning process. This step-by-step reasoning, often called Chain-of-Thought (CoT), is crucial for machines to handle complex problem-solving tasks.

人工知能システムは、特に数学や論理などのドメインで、人間スタイルの推論をシミュレートする際に顕著な進歩を遂げています。典型的な生成モデルとは異なり、これらのシステムは一連の中間ステップを生成して最終的な回答に到達し、推論プロセスに関する洞察を提供します。しばしばチェーンオブサート(COT)と呼ばれるこの段階的な推論は、マシンが複雑な問題解決タスクを処理するために重要です。

A common challenge researchers face is the models' inefficiency during inference. The reasoning models may continue processing even after attaining a correct conclusion, leading to overthinking. This generates unnecessary tokens, increasing computational cost.

研究者が直面する一般的な課題は、推論中のモデルの非効率性です。推論モデルは、正しい結論を達成した後でも処理を続ける可能性があり、考え過ぎにつながります。これにより、不要なトークンが生成され、計算コストが増加します。

Many current approaches measure a model's confidence using verbal prompts or by analyzing multiple outputs. These "black-box" strategies ask the model to report how sure it is of its answer. However, they are often imprecise and computationally expensive. On the other hand, "white-box" methods investigate models' internal hidden states to extract signals that may correlate with answer correctness.

多くの現在のアプローチは、言葉によるプロンプトを使用して、または複数の出力を分析することにより、モデルの信頼性を測定します。これらの「ブラックボックス」戦略は、モデルにその答えがどれほど確実であるかを報告するよう求めています。しかし、それらはしばしば不正確で計算上高価です。一方、「ホワイトボックス」メソッドは、モデルの内部隠し状態を調査して、回答の正しさと相関する信号を抽出します。

Prior work has shown that a model's internal states can indeed indicate the validity of final answers. However, applying this to intermediate steps in long reasoning chains is still an underexplored direction.

以前の研究では、モデルの内部状態が実際に最終回答の妥当性を示すことができることが示されています。ただし、長い推論チェーンでこれを中間ステップに適用することは、依然として露出度の低い方向です。

To bridge this gap, a team of researchers from New York University and NYU Shanghai designed a lightweight probe—a simple two-layer neural network—to inspect a model's hidden states at intermediate reasoning steps. Their models of choice were the DeepSeek-R1-Distill series and QwQ-32B, known for their excellent step-by-step reasoning capabilities, tested across various datasets including AIME, GSM8K, and MATH. The researchers trained their probe to read the internal state associated with each chunk of reasoning and predict whether the current intermediate answer was correct.

このギャップを埋めるために、ニューヨーク大学とNYU上海の研究者チームが、軽量の2層ニューラルネットワークである軽量のプローブを設計し、中級の推論ステップでモデルの隠された状態を検査しました。彼らが選んだモデルは、AIIME、GSM8K、Mathなどのさまざまなデータセットでテストされた優れたステップバイステップの推論機能で知られるDeepSeek-R1-DistillシリーズとQWQ-32Bでした。研究者たちは、推論の各塊に関連する内部状態を読み、現在の中間答えが正しいかどうかを予測するためにプローブを訓練しました。

To construct their approach, they segmented each long CoT output into smaller parts or chunks, using markers like "wait" or "verify" to identify breaks in reasoning. They used the last token's hidden state in each chunk as a representation and matched this to a correctness label, which was judged using another model. These representations were then used to train the probe on binary classification tasks. The probe was fine-tuned using grid search across hyperparameters like learning rate and hidden layer size, with most models converging to linear probes—highlighting that correctness information is often linearly embedded in the hidden states.

アプローチを構築するために、「待機」や「検証」などのマーカーを使用して、各長いCOT出力を小さな部品またはチャンクに分割し、推論の休憩を識別しました。彼らは、各チャンクの最後のトークンの隠された状態を表現として使用し、これを別のモデルを使用して審査された正しさラベルに一致させました。次に、これらの表現を使用して、バイナリ分類タスクのプローブをトレーニングしました。このプローブは、学習レートや隠されたレイヤーサイズなどのハイパーパラメーター全体でグリッド検索を使用して微調整され、ほとんどのモデルは線形プローブに収束します。正確さ情報は、しばしば隠れた状態に直線的に埋め込まれていることを強調しています。

The probe worked effectively for fully formed answers and even showed the ability to predict correctness before an answer was completed, alluding to look-ahead capabilities.

このプローブは、完全に形成された回答のために効果的に機能し、回答が完了する前に正確性を予測する能力を示し、見た目の能力を暗示しています。

Performance results were clear and quantifiable. The probes achieved ROC-AUC scores exceeding 0.9 for some datasets like AIME when using models like R1-Distill-Qwen-32B. Expected Calibration Errors (ECE) remained under 0.1, showcasing high reliability. For instance, R1-Distill-Qwen-32B had an ECE of just 0.01 on GSM8K and 0.06 on MATH.

パフォーマンスの結果は明確で定量化可能でした。プローブは、R1-Distill-QWen-32Bなどのモデルを使用する場合、AIMEなどの一部のデータセットで0.9を超えるROC-AUCスコアを達成しました。予想されるキャリブレーションエラー(ECE)は0.1未満のままで、高い信頼性を示しました。たとえば、R1-Distill-Qwen-32BのECEは、GSM8Kでわずか0.01、数学で0.06でした。

In application, the probe was used to implement a confidence-based early exit strategy during inference. The reasoning process was halted when the probe's confidence in an answer exceeded a threshold. At a confidence threshold of 0.85, the accuracy remained at 88.2%, while the inference token count was reduced by 24%. Even at a threshold of 0.9, accuracy stayed at 88.6%, with a 19% token reduction. Compared to static exit methods, this dynamic strategy achieved up to 5% higher accuracy using the same or fewer tokens.

アプリケーションでは、プローブを使用して、推論中に信頼ベースの早期出口戦略を実装しました。回答に対するプローブの信頼がしきい値を超えたとき、推論プロセスは停止しました。 0.85の信頼閾値では、精度は88.2%のままでしたが、推論トークンカウントは24%減少しました。 0.9のしきい値でさえ、精度は88.6%のままで、トークンが19%減少しました。静的な出口法と比較して、この動的戦略は、同じトークンまたは少ないトークンを使用して最大5%高い精度を達成しました。

This study provides an efficient, integrated way for reasoning models to self-verify during inference. The researchers' approach highlights a gap—models inherently know when they're right, but they don't act on it. This research opens up avenues for smarter, more efficient reasoning systems by leveraging internal representations through probing. It demonstrates that tapping into what the model already "knows" can lead to significant improvements in both performance and resource use.

この研究は、推論中にモデルを自己検証するための効率的で統合された方法を提供します。研究者のアプローチはギャップを強調しています。モデルは、いつ正しいかを本質的に知っていますが、行動しません。この研究は、調査を通じて内部表現を活用することにより、よりスマートでより効率的な推論システムの道を開きます。これは、モデルがすでに「知っている」ものをタップすると、パフォーマンスとリソースの使用の両方が大幅に改善される可能性があることを示しています。

免責事項:info@kdj.com

提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。

このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。

2025年04月15日 に掲載されたその他の記事