$85164.293495 USD

0.46%

ethereum

$1631.626805 USD

-0.06%

tether

$0.999902 USD

0.05%

xrp

$2.140262 USD

-0.29%

bnb

$585.593727 USD

-0.75%

solana

$129.553695 USD

-2.38%

usd-coin

$0.999953 USD

0.01%

tron

$0.252961 USD

-2.17%

dogecoin

$0.159379 USD

-3.88%

cardano

$0.637759 USD

-1.07%

unus-sed-leo

$9.434465 USD

0.10%

avalanche

$19.984115 USD

-0.50%

chainlink

$12.624915 USD

-1.61%

stellar

$0.241348 USD

0.09%

toncoin

$2.899684 USD

1.82%

Nachrichtenartikel zu Kryptowährungen

Untersuchung der versteckten Zustände der Gedanken-Denkmodelle der Kette, um die Inferenz-Ineffizienz zu verringern

Apr 14, 2025 at 01:32 am

Künstliche Intelligenzsysteme haben erhebliche Fortschritte bei der Simulation des Argumentierens des Menschen im Stil gemacht, insbesondere Mathematik und Logik. Diese Modelle generieren nicht nur Antworten - sie gehen durch eine Reihe logischer Schritte, um Schlussfolgerungen zu erzielen, und bieten Einblicke in die Produktion, wie und warum diese Antworten produziert werden. Diese schrittweise Argumentation, die oft als Kette (COT) bezeichnet wird, ist von entscheidender Bedeutung, wie Maschinen mit komplexen Problemlösungsaufgaben umgehen.

Artificial intelligence systems have made remarkable progress in simulating human-style reasoning, especially in domains like mathematics and logic. Unlike typical generative models, these systems generate a series of intermediate steps to reach a final answer, offering insights into the reasoning process. This step-by-step reasoning, often called Chain-of-Thought (CoT), is crucial for machines to handle complex problem-solving tasks.

Künstliche Intelligenzsysteme haben bemerkenswerte Fortschritte bei der Simulation des Argumentations im menschlichen Stil erzielt, insbesondere in Domänen wie Mathematik und Logik. Im Gegensatz zu typischen generativen Modellen erzeugen diese Systeme eine Reihe von Zwischenschritten, um eine endgültige Antwort zu erreichen, die Einblicke in den Argumentationsprozess bietet. Diese schrittweise Argumentation, die oft als Kette (COT) bezeichnet wird, ist für Maschinen von entscheidender Bedeutung, um komplexe Aufgaben zur Problemlösung zu bewältigen.

A common challenge researchers face is the models' inefficiency during inference. The reasoning models may continue processing even after attaining a correct conclusion, leading to overthinking. This generates unnecessary tokens, increasing computational cost.

Eine häufige Herausforderung, denen Forscher gegenüberstehen, ist die Ineffizienz der Modelle während der Inferenz. Die Argumentationsmodelle können auch nach einer korrekten Schlussfolgerung fortgesetzt werden, was zu Überdenken führt. Dies erzeugt unnötige Token und erhöht die Rechenkosten.

Many current approaches measure a model's confidence using verbal prompts or by analyzing multiple outputs. These "black-box" strategies ask the model to report how sure it is of its answer. However, they are often imprecise and computationally expensive. On the other hand, "white-box" methods investigate models' internal hidden states to extract signals that may correlate with answer correctness.

Viele aktuelle Ansätze messen das Vertrauen eines Modells anhand verbaler Eingabeaufforderungen oder durch Analyse mehrerer Ausgänge. Diese "Black-Box" -Strategien bitten das Modell, zu berichten, wie sicher es sich von seiner Antwort handelt. Sie sind jedoch oft ungenau und rechnerisch teuer. Andererseits untersuchen "White-Box" -Methoden die internen versteckten Zustände der Modelle, um Signale zu extrahieren, die mit der Antwortkorrektheit korrelieren können.

Prior work has shown that a model's internal states can indeed indicate the validity of final answers. However, applying this to intermediate steps in long reasoning chains is still an underexplored direction.

Frühere Arbeiten haben gezeigt, dass die internen Zustände eines Modells tatsächlich die Gültigkeit der endgültigen Antworten anzeigen können. Die Anwendung dieser Schritte in langen Argumentationsketten ist jedoch immer noch eine untererforschte Richtung.

To bridge this gap, a team of researchers from New York University and NYU Shanghai designed a lightweight probe—a simple two-layer neural network—to inspect a model's hidden states at intermediate reasoning steps. Their models of choice were the DeepSeek-R1-Distill series and QwQ-32B, known for their excellent step-by-step reasoning capabilities, tested across various datasets including AIME, GSM8K, and MATH. The researchers trained their probe to read the internal state associated with each chunk of reasoning and predict whether the current intermediate answer was correct.

Um diese Lücke zu überbrücken, entwarfen ein Forscherteam der New York University und NYU Shanghai eine leichte Sonde-ein einfaches zweischichtiges neuronales Netzwerk-, um die verborgenen Zustände eines Modells in Intermediate-Argumentationsschritten zu inspizieren. Ihre Modelle der Wahl waren die Deepseek-R1-Distill-Serie und QWQ-32B, die für ihre hervorragenden Schritt-für-Schritt-Argumentationsfunktionen bekannt waren und in verschiedenen Datensätzen getestet wurden, darunter Aime, GSM8K und Math. Die Forscher bildeten ihre Sonde aus, um den internen Zustand zu lesen, der mit jedem Argumentationsanteil verbunden ist, und vorherzusagen, ob die aktuelle mittlere Antwort korrekt war.

To construct their approach, they segmented each long CoT output into smaller parts or chunks, using markers like "wait" or "verify" to identify breaks in reasoning. They used the last token's hidden state in each chunk as a representation and matched this to a correctness label, which was judged using another model. These representations were then used to train the probe on binary classification tasks. The probe was fine-tuned using grid search across hyperparameters like learning rate and hidden layer size, with most models converging to linear probes—highlighting that correctness information is often linearly embedded in the hidden states.

Um ihren Ansatz zu konstruieren, haben sie jeden langen COT -Ausgang in kleinere Teile oder Brocken unter Verwendung von Markern wie "Warten" oder "Überprüfung" unterteilt, um Pausen in der Argumentation zu identifizieren. Sie verwendeten den versteckten Zustand des letzten Token in jedem Chunk als Darstellung und stimmten dies mit einem Richtigkeitsetikett ab, das mit einem anderen Modell beurteilt wurde. Diese Darstellungen wurden dann verwendet, um die Sonde bei Binärklassifizierungsaufgaben zu trainieren. Die Sonde wurde unter Verwendung der Gittersuche über Hyperparameter wie Lernrate und versteckte Schichtgröße fein abgestimmt, wobei die meisten Modelle zu linearen Sonden konvergieren.

The probe worked effectively for fully formed answers and even showed the ability to predict correctness before an answer was completed, alluding to look-ahead capabilities.

Die Sonde arbeitete effektiv für vollständig gebildete Antworten und zeigte sogar die Fähigkeit, die Korrektheit vorherzusagen, bevor eine Antwort abgeschlossen wurde, was auf Look-Shead-Funktionen anspielte.

Performance results were clear and quantifiable. The probes achieved ROC-AUC scores exceeding 0.9 for some datasets like AIME when using models like R1-Distill-Qwen-32B. Expected Calibration Errors (ECE) remained under 0.1, showcasing high reliability. For instance, R1-Distill-Qwen-32B had an ECE of just 0.01 on GSM8K and 0.06 on MATH.

Die Leistungsergebnisse waren klar und quantifizierbar. Die Sonden erzielten ROC-AuC-Werte von mehr als 0,9 für einige Datensätze wie Aime, wenn Modelle wie R1-Distill-Qwen-32b verwendet wurden. Die erwarteten Kalibrierungsfehler (ECE) blieben unter 0,1 und zeigen eine hohe Zuverlässigkeit. Zum Beispiel hatte R1-Distill-Qwen-32b einen ECE von nur 0,01 bei GSM8K und 0,06 in Mathematik.

In application, the probe was used to implement a confidence-based early exit strategy during inference. The reasoning process was halted when the probe's confidence in an answer exceeded a threshold. At a confidence threshold of 0.85, the accuracy remained at 88.2%, while the inference token count was reduced by 24%. Even at a threshold of 0.9, accuracy stayed at 88.6%, with a 19% token reduction. Compared to static exit methods, this dynamic strategy achieved up to 5% higher accuracy using the same or fewer tokens.

In der Anwendung wurde die Sonde verwendet, um während der Inferenz eine Konfidenz-Basis-Frühausstiegsstrategie umzusetzen. Der Argumentationsprozess wurde gestoppt, als das Vertrauen der Sonde in eine Antwort einen Schwellenwert überschritt. Bei einer Vertrauensschwelle von 0,85 lag die Genauigkeit bei 88,2%, während die Anzahl der Inferenztoken um 24%verringert wurde. Selbst bei einer Schwelle von 0,9 blieb die Genauigkeit bei 88,6% mit einer Token -Reduzierung von 19%. Im Vergleich zu statischen Ausstiegsmethoden erreichte diese dynamische Strategie mit denselben oder weniger Token bis zu 5% höhere Genauigkeit.

This study provides an efficient, integrated way for reasoning models to self-verify during inference. The researchers' approach highlights a gap—models inherently know when they're right, but they don't act on it. This research opens up avenues for smarter, more efficient reasoning systems by leveraging internal representations through probing. It demonstrates that tapping into what the model already "knows" can lead to significant improvements in both performance and resource use.

Diese Studie bietet eine effiziente, integrierte Möglichkeit für Argumentationsmodelle, um sich während der Inferenz selbst zu überlegen. Der Ansatz der Forscher unterstreicht eine Lücke - Modelle wissen von Natur aus, wenn sie Recht haben, aber sie reagieren nicht darauf. Diese Forschung eröffnet Wege für intelligentere und effizientere Argumentationssysteme durch die Nutzung interner Darstellungen durch Untersuchung. Es zeigt, dass das Anziehen des Modells, das das Modell bereits "weiß", zu erheblichen Verbesserungen sowohl bei der Leistung als auch in der Ressourcenverwendung führen kann.

Haftungsausschluss:info@kdj.com

Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren！

Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.

Weitere Artikel veröffentlicht am Apr 15, 2025

Mehr