![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Articles d’actualité sur les crypto-monnaies
LLaVA-o1 : un nouveau modèle de langage de vision open source qui apporte une mise à l'échelle du temps d'inférence au raisonnement multimodal
Nov 23, 2024 at 07:26 am
LLaVA-o1, un nouveau modèle développé par des chercheurs de plusieurs universités chinoises, apporte ce paradigme aux modèles de langage de vision (VLM) open source.
OpenAI’s o1 model demonstrated the potential of inference-time scaling for enhancing language models’ reasoning abilities. Now, researchers from multiple universities in China have applied this paradigm to open-source vision language models (VLMs) with their new LLaVA-o1 model.
Le modèle o1 d'OpenAI a démontré le potentiel de la mise à l'échelle du temps d'inférence pour améliorer les capacités de raisonnement des modèles de langage. Aujourd’hui, des chercheurs de plusieurs universités chinoises ont appliqué ce paradigme aux modèles de langage de vision (VLM) open source avec leur nouveau modèle LLaVA-o1.
Most early open-source VLMs use a direct prediction approach, generating answers without explicitly reasoning about the prompt and the steps required to solve it. This approach limits their effectiveness on tasks that require logical reasoning. While advanced prompting techniques like chain-of-thought (CoT) prompting can encourage models to generate intermediate reasoning steps and produce some marginal improvements, VLMs are still prone to errors or hallucinations.
La plupart des premiers VLM open source utilisent une approche de prédiction directe, générant des réponses sans raisonner explicitement sur l'invite et les étapes nécessaires pour la résoudre. Cette approche limite leur efficacité sur les tâches qui nécessitent un raisonnement logique. Bien que les techniques d'incitation avancées telles que l'incitation par chaîne de pensée (CoT) puissent encourager les modèles à générer des étapes de raisonnement intermédiaires et à produire des améliorations marginales, les VLM sont toujours sujets à des erreurs ou à des hallucinations.
The researchers observed that a key issue is the lack of a systematic and structured reasoning process in existing VLMs. The models don’t generate reasoning chains and often get stuck in reasoning processes where they don’t know at what stage they are and what specific problem they must solve.
Les chercheurs ont observé qu’un problème clé est l’absence d’un processus de raisonnement systématique et structuré dans les VLM existants. Les modèles ne génèrent pas de chaînes de raisonnement et restent souvent coincés dans des processus de raisonnement où ils ne savent pas à quel stade ils se trouvent et quel problème spécifique ils doivent résoudre.
“We observe that VLMs often initiate responses without adequately organizing the problem and the available information,” the researchers write. “Moreover, they frequently deviate from a logical reasoning toward conclusions, instead of presenting a conclusion prematurely and subsequently attempting to justify it. Given that language models generate responses token-by-token, once an erroneous conclusion is introduced, the model typically continues along a flawed reasoning path.”
« Nous observons que les VLM lancent souvent des réponses sans organiser adéquatement le problème et les informations disponibles », écrivent les chercheurs. « De plus, ils s’écartent fréquemment d’un raisonnement logique vers des conclusions, au lieu de présenter une conclusion prématurément et de tenter ensuite de la justifier. Étant donné que les modèles de langage génèrent des réponses jeton par jeton, une fois qu’une conclusion erronée est introduite, le modèle continue généralement sur un chemin de raisonnement erroné.
Multistage reasoning
Raisonnement en plusieurs étapes
OpenAI o1 uses inference-time scaling to solve the systematic and structured reasoning problem and allows the model to pause and review its results as it gradually solves the problem. While OpenAI has not released much detail about the underlying mechanism of o1, its results show promising directions for improving the reasoning abilities of foundational models.
OpenAI o1 utilise la mise à l'échelle du temps d'inférence pour résoudre le problème de raisonnement systématique et structuré et permet au modèle de faire une pause et de revoir ses résultats à mesure qu'il résout progressivement le problème. Bien qu’OpenAI n’ait pas publié beaucoup de détails sur le mécanisme sous-jacent de o1, ses résultats montrent des pistes prometteuses pour améliorer les capacités de raisonnement des modèles fondamentaux.
Inspired by o1, the researchers designed LLaVA-o1 to perform stage-by-stage reasoning. Instead of generating a direct reasoning chain, LLaVA-o1 breaks down the reasoning process into four distinct stages:
Inspirés par o1, les chercheurs ont conçu LLaVA-o1 pour effectuer un raisonnement étape par étape. Au lieu de générer une chaîne de raisonnement directe, LLaVA-o1 décompose le processus de raisonnement en quatre étapes distinctes :
Summary: The model first provides a high-level summary of the question, outlining the core problem it needs to address.
Résumé : le modèle fournit d'abord un résumé de haut niveau de la question, décrivant le problème principal auquel elle doit répondre.
Caption: If an image is present, the model describes the relevant parts, focusing on elements related to the question.
Légende : Si une image est présente, le modèle décrit les parties pertinentes, en se concentrant sur les éléments liés à la question.
Reasoning: Building on the summary, the model performs structured, logical reasoning to derive a preliminary answer.
Raisonnement : à partir du résumé, le modèle effectue un raisonnement structuré et logique pour obtenir une réponse préliminaire.
Conclusion: Finally, the model presents a concise summary of the answer based on the preceding reasoning.
Conclusion : Enfin, le modèle présente un résumé concis de la réponse basée sur le raisonnement précédent.
Only the conclusion stage is visible to the user; the other three stages represent the model’s internal reasoning process, similar to the hidden reasoning trace of o1. This structured approach allows LLaVA-o1 to manage its reasoning process independently, leading to improved performance on complex tasks.
Seule l'étape de conclusion est visible par l'utilisateur ; les trois autres étapes représentent le processus de raisonnement interne du modèle, similaire à la trace de raisonnement cachée de o1. Cette approche structurée permet à LLaVA-o1 de gérer son processus de raisonnement de manière indépendante, conduisant à de meilleures performances sur des tâches complexes.
“This structured approach enables the model to independently manage its reasoning process, improving its adaptability and performance on complex reasoning tasks,” the researchers write.
"Cette approche structurée permet au modèle de gérer indépendamment son processus de raisonnement, améliorant ainsi son adaptabilité et ses performances sur des tâches de raisonnement complexes", écrivent les chercheurs.
LLaVA-o1 also introduces a novel inference-time scaling technique called “stage-level beam search.” Stage-level beam search generates multiple candidate outputs at each reasoning stage. It then selects the best candidate at each stage to continue the generation process. This is in contrast to the classic best-of-N approach, in which the model is prompted to generate multiple complete responses before selecting one.
LLaVA-o1 introduit également une nouvelle technique de mise à l’échelle du temps d’inférence appelée « recherche de faisceau au niveau de la scène ». La recherche de faisceau au niveau de l'étape génère plusieurs sorties candidates à chaque étape de raisonnement. Il sélectionne ensuite le meilleur candidat à chaque étape pour poursuivre le processus de génération. Cela contraste avec l’approche classique « best-of-N », dans laquelle le modèle est invité à générer plusieurs réponses complètes avant d’en sélectionner une.
“Notably, it is the structured output design of LLaVA-o1 that makes this approach feasible, enabling efficient and accurate verification at each stage,” the researchers write. “This validates the effectiveness of structured output in improving inference time scaling.”
"C'est notamment la conception structurée des résultats de LLaVA-o1 qui rend cette approche réalisable, permettant une vérification efficace et précise à chaque étape", écrivent les chercheurs. "Cela valide l'efficacité de la sortie structurée pour améliorer la mise à l'échelle du temps d'inférence."
Training LLaVA-o1
Formation LLaVA-o1
To train LLaVA-o1, the researchers compiled a new dataset of around 100,000 image-question-answer pairs obtained from several widely used VQA datasets. The dataset covers a variety of tasks, from multi-turn question answering to chart interpretation and geometric reasoning.
Pour entraîner LLaVA-o1, les chercheurs ont compilé un nouvel ensemble de données d’environ 100 000 paires image-question-réponse obtenues à partir de plusieurs ensembles de données VQA largement utilisés. L'ensemble de données couvre une variété de tâches, allant de la réponse à des questions à plusieurs tours à l'interprétation de graphiques et au raisonnement géométrique.
The researchers used GPT-4o to generate the detailed four-stage reasoning processes for each example, including the summary, caption, reasoning and conclusion stages.
Les chercheurs ont utilisé GPT-4o pour générer les processus de raisonnement détaillés en quatre étapes pour chaque exemple, y compris les étapes de résumé, de légende, de raisonnement et de conclusion.
The researchers then fine-tuned Llama-3.2-11B-Vision-Instruct on this dataset to obtain the final LLaVA-o1 model. The researchers have not released the model but plan to release the dataset, called the LLaVA-o1-100k.
Les chercheurs ont ensuite affiné Llama-3.2-11B-Vision-Instruct sur cet ensemble de données pour obtenir le modèle LLaVA-o1 final. Les chercheurs n’ont pas publié le modèle mais prévoient de publier l’ensemble de données, appelé LLaVA-o1-100k.
LLaVA-o1 in action
LLaVA-o1 en action
The researchers evaluated LLaVA-o1 on several multimodal reasoning benchmarks. Despite being trained on only 100,000 examples, LLaVA-o1 showed significant performance improvements over the base Llama model, with an average benchmark score increase of 6.9%.
Les chercheurs ont évalué LLaVA-o1 sur plusieurs critères de raisonnement multimodal. Bien qu'il ait été formé sur seulement 100 000 exemples, LLaVA-o1 a montré des améliorations significatives de ses performances par rapport au modèle de base Llama, avec une augmentation moyenne du score de référence de 6,9 %.
Furthermore, stage-level beam search led to additional performance gains, demonstrating the effectiveness of inference-time scaling. Due to computational resource constraints, the researchers were only able to test the technique with a beam size of 2. They expect even greater improvements with larger beam sizes.
De plus, la recherche de faisceaux au niveau de l'étage a conduit à des gains de performances supplémentaires, démontrant l'efficacité de la mise à l'échelle du temps d'inférence. En raison de contraintes de ressources informatiques, les chercheurs n’ont pu tester la technique qu’avec une taille de faisceau de 2. Ils s’attendent à des améliorations encore plus importantes avec des tailles de faisceau plus grandes.
Impressively, LLaVA-o1 outperformed not only other open-source models of the same size or larger but also some closed-
De manière impressionnante, LLaVA-o1 a surpassé non seulement les autres modèles open source de même taille ou plus, mais également certains modèles fermés.
Clause de non-responsabilité:info@kdj.com
Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!
Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.
-
- Les législateurs américains ont voté pour annuler une règle de l'IRS qui exigeait des entreprises cryptographiques
- Mar 12, 2025 at 03:10 pm
- Les législateurs américains ont voté pour annuler une règle de l'IRS qui exigeait que les sociétés cryptographiques, y compris les plateformes Defi, permettent et signalent les informations sur les contribuables et les transactions.
-
- La sénatrice américaine Cynthia Lummis réintroduit la loi Bitcoin pour permettre au gouvernement de contenir plus d'un million de Bitcoin
- Mar 12, 2025 at 03:10 pm
- Le projet de loi, présenté pour la première fois en juillet, ordonne au gouvernement américain d'acheter 200 000 Bitcoin BTCUSD un an sur cinq ans pour une acquisition totale de 1 million de Bitcoin
-
- Prédiction de prix XRP (XRP): Qu'arrive-t-il à l'actif cryptographique après le procès de la SEC?
- Mar 12, 2025 at 03:05 pm
- Dans une interview avec le réseau Paul Barron, le directeur des investissements en bitwise (CIO) Matt Hougan a exprimé son point de vue sur la bataille réglementaire de longue date entourant XRP
-
- Marché de la cryptographie: Bitcoin (BTC) Prix aujourd'hui augmente de 4% pour récupérer le niveau de 82 000 $; La capitalisation boursière en hausse de 3,33% à 2,67 T $
- Mar 12, 2025 at 03:05 pm
- Le marché de la cryptographie est revenu en territoire positif après une course baissière pendant 8 à 9 jours. Au cours des dernières 24 heures, la capitalisation boursière de la cryptographie a bondi de 3,33% à 2,67 T $
-
- Malgré un marché cryptographique fragile, il y a encore beaucoup de mouvement dans le secteur du fonds échangé (ETF).
- Mar 12, 2025 at 03:05 pm
- Avalanche (AVAX) devrait obtenir son propre fonds, en attendant l'approbation, tandis que les détenteurs d'ETF Etf peuvent potentiellement commencer à gagner des récompenses de navette
-
- De plus en plus d'investisseurs Ethereum (ETH) se tournent sur Mutuum Finance (MUTM) comme une alternative fraîche
- Mar 12, 2025 at 03:05 pm
- Plutôt que de jalonner ou de céder l'agriculture, ces investisseurs sont attirés par le protocole de prêt innovant de Mutuum, ce qui leur permet de gagner des rendements passifs
-
-
- Les expériences de la fondation Ethereum (ETH) ont renouvelé la pression à la baisse au milieu d'un krach de marché répandu
- Mar 12, 2025 at 03:05 pm
- Ethereum (ETH), la deuxième plus grande crypto-monnaie par capitalisation boursière, a subi une pression à la baisse renouvelée au milieu d'un krach de marché généralisé.
-