$95988.360365 USD

-1.02%

ethereum

$2616.372283 USD

-3.20%

tether

$1.000079 USD

-0.02%

xrp

$2.379544 USD

3.41%

solana

$191.021998 USD

-0.17%

bnb

$579.394785 USD

0.28%

usd-coin

$0.999980 USD

0.00%

dogecoin

$0.246368 USD

-0.99%

cardano

$0.694285 USD

-2.52%

tron

$0.232453 USD

1.91%

chainlink

$18.089071 USD

-3.16%

stellar

$0.324940 USD

1.41%

avalanche

$24.110410 USD

-2.54%

toncoin

$3.700057 USD

-0.98%

unus-sed-leo

$9.767020 USD

0.09%

Articles d’actualité sur les crypto-monnaies

PRM implicite: un cadre d'apprentissage de renforcement qui élimine le besoin d'annotations par étapes explicites

Feb 08, 2025 at 11:49 am

Reinforcement learning (RL) for large language models (LLMs) has traditionally relied on outcome-based rewards, which provide feedback only on the final output. This sparsity of reward makes it challenging to train models that need multi-step reasoning, like those employed in mathematical problem-solving and programming. Additionally, credit assignment becomes ambiguous, as the model does not get fine-grained feedback for intermediate steps.

L'apprentissage par renforcement (RL) pour les modèles de grands langues (LLMS) s'est traditionnellement appuyé sur des récompenses basées sur les résultats, qui ne fournissent pas de commentaires uniquement sur la sortie finale. Cette rareté de récompense rend difficile pour former des modèles qui nécessitent un raisonnement en plusieurs étapes, comme ceux utilisés dans la résolution et la programmation mathématiques de problèmes. De plus, l'attribution du crédit devient ambigu, car le modèle n'obtient pas de rétroaction à grain fin pour les étapes intermédiaires.

Process reward models (PRMs) try to address this by offering dense step-wise rewards, but they need costly human-annotated process labels, making them infeasible for large-scale RL. In addition, static reward functions are plagued by overoptimization and reward hacking, where the model takes advantage of the reward system in unforeseen ways, eventually compromising generalization performance. These limitations restrict RL’s efficiency, scalability, and applicability for LLMs, calling for a new solution that effectively combines dense rewards without high computational expense or human annotations.

Les modèles de récompense de processus (PRMS) essaient de résoudre ce problème en offrant des récompenses denses étapes, mais elles ont besoin d'étiquettes de processus annotées humaines coûteuses, ce qui les rend irréalisables pour une RL à grande échelle. De plus, les fonctions de récompense statique sont en proie à une suroptimisation et à un piratage de récompense, où le modèle profite du système de récompense de manière imprévue, compromettant finalement les performances de généralisation. Ces limitations restreignent l'efficacité, l'évolutivité et l'applicabilité de RL pour les LLM, appelant à une nouvelle solution qui combine efficacement des récompenses denses sans dépenses de calcul élevées ni annotations humaines.

Most existing RL methods for LLMs employ outcome reward models (ORMs), which offer scores only for the final output. This results in low sample efficiency as models must generate and test whole sequences before getting feedback. Some methods employ value models that estimate future rewards from past actions to counter this. However, these models have high variance and do not handle reward sparsity properly. PRMs offer more fine-grained feedback but need costly manual annotations for intermediate steps and are prone to reward hacking because of static reward functions. Additionally, most existing methods need an extra training phase for the reward model, adding to the computational expense and making them infeasible for scalable online RL.

La plupart des méthodes RL existantes pour les LLM utilisent les modèles de récompense des résultats (ORMS), qui n'offrent des scores que pour la sortie finale. Il en résulte une faible efficacité de l'échantillon car les modèles doivent générer et tester des séquences entières avant d'obtenir des commentaires. Certaines méthodes utilisent des modèles de valeur qui estiment les récompenses futures des actions passées pour le contrer. Cependant, ces modèles ont une grande variance et ne gèrent pas correctement la rareté de récompense. Les PRM offrent des commentaires plus fins, mais nécessitent des annotations manuelles coûteuses pour les étapes intermédiaires et sont enclins à récompenser le piratage en raison des fonctions de récompense statique. De plus, la plupart des méthodes existantes ont besoin d'une phase de formation supplémentaire pour le modèle de récompense, ajoutant aux dépenses de calcul et les rendant irréalisables pour une RL en ligne évolutive.

A group of researchers from Tsinghua University, Shanghai AI Lab, University of Illinois Urbana-Champaign, Peking University, Shanghai Jiaotong University, and CUHK has proposed a reinforcement learning framework that eliminates the need for explicit step-wise annotations using efficient utilization of dense feedback. The main contribution proposed is the introduction of an Implicit Process Reward Model (Implicit PRM), which produces token-level rewards independently of outcome labels, thus eliminating the need for human-annotated step-level guidance. The approach allows for continuous online improvement of the reward model, eliminating the problem of overoptimization without allowing dynamic policy rollout adjustments. The framework can successfully integrate implicit process rewards with outcome rewards during advantage estimation, offering computational efficiency and eliminating reward hacking. Unlike previous methods, which require a separate training phase for process rewards, the new approach initializes the PRM directly from the policy model itself, thus greatly eliminating developmental overhead. It is also made compatible with a range of RL algorithms, including REINFORCE, PPO, and GRPO, thus making it generalizable and scalable for training large language models (LLMs).

A group of researchers from Tsinghua University, Shanghai AI Lab, University of Illinois Urbana-Champaign, Peking University, Shanghai Jiaotong University, and CUHK has proposed a reinforcement learning framework that eliminates the need for explicit step-wise annotations using efficient utilization of dense feedback . La principale contribution proposée est l'introduction d'un modèle de récompense de processus implicite (PRM implicite), qui produit des récompenses au niveau des jetons indépendamment des étiquettes de résultat, éliminant ainsi le besoin de guidage de pas annoté par l'homme. L'approche permet une amélioration continue en ligne du modèle de récompense, éliminant le problème de la suroptimisation sans permettre des ajustements de déploiement de politique dynamique. Le cadre peut intégrer avec succès les récompenses de processus implicites avec les récompenses des résultats pendant l'estimation de l'avantage, offrant une efficacité de calcul et éliminer le piratage de récompense. Contrairement aux méthodes précédentes, qui nécessitent une phase de formation distincte pour les récompenses de processus, la nouvelle approche initialise le PRM directement à partir du modèle de politique lui-même, éliminant ainsi considérablement les frais généraux de développement. Il est également rendu compatible avec une gamme d'algorithmes RL, y compris le renforcement, le PPO et le GRPO, ce qui le rend généralisable et évolutif pour la formation de modèles de langues (LLM).

This reinforcement learning system provides token-level implicit process rewards, calculated through a log-ratio formulation between a learned reward model and a reference model. Rather than manual annotation, the reward function is learned from raw outcome labels, which are already obtained for policy training. The system also includes online learning of the reward function to avoid overoptimization and reward hacking. It uses a hybrid advantage estimation approach that combines implicit process and outcome rewards through a leave-one-out Monte Carlo estimator. Policy optimization is achieved through Proximal Policy Optimisation (PPO) using a clipped surrogate loss function for stability. The model was trained using Qwen2.5-Math-7B-Base, an optimized model for mathematical reasoning. The system is based on 150K queries with four samples per query, compared to Qwen2.5-Math-7B-Instruct using 618K in-house annotations, which demonstrates the effectiveness of the training process.

Ce système d'apprentissage par renforcement fournit des récompenses de processus implicites au niveau du jeton, calculées par une formulation log-ratio entre un modèle de récompense apprise et un modèle de référence. Plutôt que l'annotation manuelle, la fonction de récompense est apprise des étiquettes de résultats brutes, qui sont déjà obtenues pour la formation politique. Le système comprend également l'apprentissage en ligne de la fonction de récompense pour éviter la suroptimisation et le piratage de récompense. Il utilise une approche d'estimation de l'avantage hybride qui combine des récompenses implicites de processus et de résultats grâce à un estimateur de Monte Carlo à un seul coup. L'optimisation des politiques est obtenue grâce à l'optimisation de la politique proximale (PPO) en utilisant une fonction de perte de substitution coupée pour la stabilité. Le modèle a été formé à l'aide de la base QWEN2.5-Math-7B, un modèle optimisé pour le raisonnement mathématique. Le système est basé sur 150 000 requêtes avec quatre échantillons par requête, par rapport à Qwen2.5-Math-7B-Istruct en utilisant des annotations internes 618k, ce qui démontre l'efficacité du processus de formation.

The reinforcement learning system demonstrates significant gains in sample efficiency and reasoning performance across several benchmarks. It provides a 2.5× gain in sample efficiency and a 6.9% gain in mathematical problem-solving compared to standard outcome-based RL. The model outperforms Qwen2.5-Math-7B-Instruct on benchmarking mathematical benchmarks, with better accuracy on competition-level tasks like AIME and AMC. Models trained from this process outperform larger models, including GPT-4o, by pass@1 accuracy for challenging reasoning tasks, even when using only 10% of the training data used by Qwen2.5-Math-7B-Instruct. The results affirm that online updates to the reward model avoid over-optimization, enhance training stability, and enhance credit assignment, making it an extremely powerful method for reinforcement learning in LLMs.

Le système d'apprentissage par renforcement démontre des gains importants dans l'efficacité de l'échantillon et les performances du raisonnement à travers plusieurs repères. Il fournit un gain de 2,5 × en efficacité de l'échantillon et un gain de 6,9% en résolution de problèmes mathématiques par rapport à la RL basée sur les résultats standard. Le modèle surpasse l'instruction QWEN2.5-Math-7B sur les références mathématiques compliquées, avec une meilleure précision sur les tâches au niveau de la compétition comme l'AIME et l'AMC. Les modèles formés à partir de ce processus surpassent les modèles plus importants, y compris le GPT-4O, par PASS @ 1 précision pour des tâches de raisonnement difficiles, même lorsque vous n'utilisez que 10% des données de formation utilisées par QWEN2.5-Math-7B-instruct. Les résultats affirment que les mises à jour en ligne du modèle de récompense évitent la sur-optimisation, améliorent la stabilité de la formation et améliorent la mission de crédit, ce qui en fait une méthode extrêmement puissante pour l'apprentissage du renforcement dans les LLM.

This reinforcement learning approach provides an efficient and scalable LLM training process with dense implicit process rewards. This eliminates step-level explicit annotations and minimizes training costs while enhancing sample efficiency, stability, and performance. The process combines online reward modeling and token-level feedback harmoniously, solving long-standing problems of reward sparsity and credit assignment in RL for LLMs. These improvements optimize reasoning capability in AI models and make them suitable for problem-solving applications in mathematics and programming. This research is a substantial contribution to RL-based L

Cette approche d'apprentissage par renforcement fournit un processus de formation LLM efficace et évolutif avec des récompenses de processus implicites denses. Cela élimine les annotations explicites au niveau des étapes et minimise les coûts de formation tout en améliorant l'efficacité des échantillons, la stabilité et les performances. Le processus combine la modélisation de récompense en ligne et la rétroaction au niveau des jetons harmonieusement, résolvant des problèmes de longue durée de récompense et d'affectation de crédit dans RL pour les LLM. Ces améliorations optimisent la capacité de raisonnement dans les modèles d'IA et les rendent adaptées aux applications de résolution de problèmes en mathématiques et en programmation. Cette recherche est une contribution substantielle au L basé sur RL

Clause de non-responsabilité:info@kdj.com

The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research！

If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.

Autres articles publiés sur Feb 08, 2025

Plus