![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Nachrichtenartikel zu Kryptowährungen
LLaVA-o1: Ein neues Open-Source-Vision-Sprachmodell, das die Skalierung der Inferenzzeit in das multimodale Denken integriert
Nov 23, 2024 at 07:26 am
LLaVA-o1, ein neues Modell, das von Forschern mehrerer Universitäten in China entwickelt wurde, überträgt dieses Paradigma auf Open-Source-Vision-Language-Modelle (VLMs).
OpenAI’s o1 model demonstrated the potential of inference-time scaling for enhancing language models’ reasoning abilities. Now, researchers from multiple universities in China have applied this paradigm to open-source vision language models (VLMs) with their new LLaVA-o1 model.
Das o1-Modell von OpenAI demonstrierte das Potenzial der Inferenzzeitskalierung zur Verbesserung der Argumentationsfähigkeiten von Sprachmodellen. Jetzt haben Forscher mehrerer Universitäten in China dieses Paradigma mit ihrem neuen LLaVA-o1-Modell auf Open-Source-Vision-Language-Modelle (VLMs) angewendet.
Most early open-source VLMs use a direct prediction approach, generating answers without explicitly reasoning about the prompt and the steps required to solve it. This approach limits their effectiveness on tasks that require logical reasoning. While advanced prompting techniques like chain-of-thought (CoT) prompting can encourage models to generate intermediate reasoning steps and produce some marginal improvements, VLMs are still prone to errors or hallucinations.
Die meisten frühen Open-Source-VLMs verwenden einen direkten Vorhersageansatz und generieren Antworten, ohne explizit über die Eingabeaufforderung und die zu ihrer Lösung erforderlichen Schritte nachzudenken. Dieser Ansatz schränkt ihre Wirksamkeit bei Aufgaben ein, die logisches Denken erfordern. Während fortschrittliche Eingabeaufforderungstechniken wie Chain-of-Think (CoT)-Eingabeaufforderung Modelle dazu ermutigen können, Zwischenschritte für das Denken zu generieren und einige geringfügige Verbesserungen zu erzielen, sind VLMs immer noch anfällig für Fehler oder Halluzinationen.
The researchers observed that a key issue is the lack of a systematic and structured reasoning process in existing VLMs. The models don’t generate reasoning chains and often get stuck in reasoning processes where they don’t know at what stage they are and what specific problem they must solve.
Die Forscher stellten fest, dass ein zentrales Problem das Fehlen eines systematischen und strukturierten Argumentationsprozesses in bestehenden VLMs ist. Die Modelle erzeugen keine Argumentationsketten und bleiben oft in Argumentationsprozessen stecken, bei denen sie nicht wissen, in welchem Stadium sie sich befinden und welches spezifische Problem sie lösen müssen.
“We observe that VLMs often initiate responses without adequately organizing the problem and the available information,” the researchers write. “Moreover, they frequently deviate from a logical reasoning toward conclusions, instead of presenting a conclusion prematurely and subsequently attempting to justify it. Given that language models generate responses token-by-token, once an erroneous conclusion is introduced, the model typically continues along a flawed reasoning path.”
„Wir beobachten, dass VLMs oft Antworten einleiten, ohne das Problem und die verfügbaren Informationen angemessen zu organisieren“, schreiben die Forscher. „Außerdem weichen sie häufig von einer logischen Argumentation hin zu Schlussfolgerungen ab, anstatt eine Schlussfolgerung voreilig darzulegen und anschließend zu versuchen, sie zu begründen.“ Angesichts der Tatsache, dass Sprachmodelle Antworten Token für Token generieren, setzt das Modell, sobald eine fehlerhafte Schlussfolgerung eingeführt wird, typischerweise einen fehlerhaften Argumentationspfad fort.“
Multistage reasoning
Mehrstufiges Denken
OpenAI o1 uses inference-time scaling to solve the systematic and structured reasoning problem and allows the model to pause and review its results as it gradually solves the problem. While OpenAI has not released much detail about the underlying mechanism of o1, its results show promising directions for improving the reasoning abilities of foundational models.
OpenAI o1 nutzt Inferenzzeitskalierung, um das Problem des systematischen und strukturierten Denkens zu lösen, und ermöglicht es dem Modell, anzuhalten und seine Ergebnisse zu überprüfen, während es das Problem schrittweise löst. Obwohl OpenAI nicht viele Details über den zugrunde liegenden Mechanismus von o1 veröffentlicht hat, zeigen seine Ergebnisse vielversprechende Wege zur Verbesserung der Argumentationsfähigkeiten grundlegender Modelle auf.
Inspired by o1, the researchers designed LLaVA-o1 to perform stage-by-stage reasoning. Instead of generating a direct reasoning chain, LLaVA-o1 breaks down the reasoning process into four distinct stages:
Inspiriert von o1 entwickelten die Forscher LLaVA-o1, um stufenweises Denken durchzuführen. Anstatt eine direkte Argumentationskette zu generieren, unterteilt LLaVA-o1 den Argumentationsprozess in vier verschiedene Phasen:
Summary: The model first provides a high-level summary of the question, outlining the core problem it needs to address.
Zusammenfassung: Das Modell liefert zunächst eine allgemeine Zusammenfassung der Frage und umreißt das Kernproblem, das es angehen muss.
Caption: If an image is present, the model describes the relevant parts, focusing on elements related to the question.
Bildunterschrift: Wenn ein Bild vorhanden ist, beschreibt das Modell die relevanten Teile und konzentriert sich dabei auf Elemente, die mit der Frage in Zusammenhang stehen.
Reasoning: Building on the summary, the model performs structured, logical reasoning to derive a preliminary answer.
Argumentation: Aufbauend auf der Zusammenfassung führt das Modell eine strukturierte, logische Argumentation durch, um eine vorläufige Antwort abzuleiten.
Conclusion: Finally, the model presents a concise summary of the answer based on the preceding reasoning.
Schlussfolgerung: Abschließend präsentiert das Modell eine prägnante Zusammenfassung der Antwort, die auf der vorangegangenen Argumentation basiert.
Only the conclusion stage is visible to the user; the other three stages represent the model’s internal reasoning process, similar to the hidden reasoning trace of o1. This structured approach allows LLaVA-o1 to manage its reasoning process independently, leading to improved performance on complex tasks.
Für den Benutzer ist nur die Abschlussphase sichtbar. Die anderen drei Phasen stellen den internen Argumentationsprozess des Modells dar, ähnlich der verborgenen Argumentationsspur von o1. Dieser strukturierte Ansatz ermöglicht es LLaVA-o1, seinen Argumentationsprozess unabhängig zu verwalten, was zu einer verbesserten Leistung bei komplexen Aufgaben führt.
“This structured approach enables the model to independently manage its reasoning process, improving its adaptability and performance on complex reasoning tasks,” the researchers write.
„Dieser strukturierte Ansatz ermöglicht es dem Modell, seinen Denkprozess unabhängig zu verwalten, wodurch seine Anpassungsfähigkeit und Leistung bei komplexen Denkaufgaben verbessert wird“, schreiben die Forscher.
LLaVA-o1 also introduces a novel inference-time scaling technique called “stage-level beam search.” Stage-level beam search generates multiple candidate outputs at each reasoning stage. It then selects the best candidate at each stage to continue the generation process. This is in contrast to the classic best-of-N approach, in which the model is prompted to generate multiple complete responses before selecting one.
LLaVA-o1 führt außerdem eine neuartige Inferenzzeitskalierungstechnik namens „Stage-Level Beam Search“ ein. Die Strahlsuche auf Stufenebene generiert in jeder Argumentationsstufe mehrere Kandidatenausgaben. Anschließend wählt es in jeder Phase den besten Kandidaten aus, um den Generierungsprozess fortzusetzen. Dies steht im Gegensatz zum klassischen Best-of-N-Ansatz, bei dem das Modell aufgefordert wird, mehrere vollständige Antworten zu generieren, bevor es eine auswählt.
“Notably, it is the structured output design of LLaVA-o1 that makes this approach feasible, enabling efficient and accurate verification at each stage,” the researchers write. “This validates the effectiveness of structured output in improving inference time scaling.”
„Besonders ist es das strukturierte Ausgabedesign von LLaVA-o1, das diesen Ansatz möglich macht und eine effiziente und genaue Überprüfung in jeder Phase ermöglicht“, schreiben die Forscher. „Dies bestätigt die Wirksamkeit der strukturierten Ausgabe bei der Verbesserung der Inferenzzeitskalierung.“
Training LLaVA-o1
Ausbildung LLaVA-o1
To train LLaVA-o1, the researchers compiled a new dataset of around 100,000 image-question-answer pairs obtained from several widely used VQA datasets. The dataset covers a variety of tasks, from multi-turn question answering to chart interpretation and geometric reasoning.
Um LLaVA-o1 zu trainieren, stellten die Forscher einen neuen Datensatz mit rund 100.000 Bild-Frage-Antwort-Paaren zusammen, die aus mehreren weit verbreiteten VQA-Datensätzen gewonnen wurden. Der Datensatz deckt eine Vielzahl von Aufgaben ab, von der Beantwortung von Fragen mit mehreren Runden über die Interpretation von Diagrammen bis hin zum geometrischen Denken.
The researchers used GPT-4o to generate the detailed four-stage reasoning processes for each example, including the summary, caption, reasoning and conclusion stages.
Die Forscher verwendeten GPT-4o, um die detaillierten vierstufigen Argumentationsprozesse für jedes Beispiel zu generieren, einschließlich der Phasen Zusammenfassung, Bildunterschrift, Begründung und Schlussfolgerung.
The researchers then fine-tuned Llama-3.2-11B-Vision-Instruct on this dataset to obtain the final LLaVA-o1 model. The researchers have not released the model but plan to release the dataset, called the LLaVA-o1-100k.
Anschließend optimierten die Forscher Llama-3.2-11B-Vision-Instruct anhand dieses Datensatzes, um das endgültige LLaVA-o1-Modell zu erhalten. Die Forscher haben das Modell noch nicht veröffentlicht, planen jedoch die Veröffentlichung des Datensatzes namens LLaVA-o1-100k.
LLaVA-o1 in action
LLaVA-o1 in Aktion
The researchers evaluated LLaVA-o1 on several multimodal reasoning benchmarks. Despite being trained on only 100,000 examples, LLaVA-o1 showed significant performance improvements over the base Llama model, with an average benchmark score increase of 6.9%.
Die Forscher bewerteten LLaVA-o1 anhand mehrerer Benchmarks für multimodales Denken. Obwohl LLaVA-o1 nur an 100.000 Beispielen trainiert wurde, zeigte es deutliche Leistungsverbesserungen gegenüber dem Basismodell Llama, mit einer durchschnittlichen Benchmark-Ergebnissteigerung von 6,9 %.
Furthermore, stage-level beam search led to additional performance gains, demonstrating the effectiveness of inference-time scaling. Due to computational resource constraints, the researchers were only able to test the technique with a beam size of 2. They expect even greater improvements with larger beam sizes.
Darüber hinaus führte die Strahlsuche auf Bühnenebene zu zusätzlichen Leistungssteigerungen und demonstrierte die Wirksamkeit der Inferenzzeitskalierung. Aufgrund von Rechenressourcenbeschränkungen konnten die Forscher die Technik nur mit einer Strahlgröße von 2 testen. Sie erwarten noch größere Verbesserungen bei größeren Strahlgrößen.
Impressively, LLaVA-o1 outperformed not only other open-source models of the same size or larger but also some closed-
Beeindruckenderweise übertraf LLaVA-o1 nicht nur andere Open-Source-Modelle gleicher oder größerer Größe, sondern auch einige geschlossene Modelle.
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
-
- Bitcoin (BTC) unter schwerem Verkaufsdruck, nachdem er vor wenigen Tagen das Niveau von 85.000 US -Dollar verloren hatte
- Mar 12, 2025 at 03:35 pm
- Bitcoin (BTC) steht unter starkem Verkaufsdruck, nachdem er vor wenigen Tagen das Niveau von 85.000 US -Dollar verloren hat. Diese Aufschlüsselung hat den Markt auf den niedrigsten Niveau seit November 2024 gedrängt
-
- Die nächste Wiederbelebung der großen Kryptowährung: Ethereum (ETH), Ripple (XRP), Dogecoin (Doge) und Minotaurus (Mtaur)
- Mar 12, 2025 at 03:35 pm
- Ein wahrer Sturm hat den Kryptowährungsmarkt getroffen, der die Preise erhöht und Investoren nerven. Doch unter den turbulenten Wellen liegt das überzeugende Flüstern eines bevorstehenden Wiederauflebens
-
- US -Gesetzgeber stimmten dafür, eine IRS -Regel zu stornieren, die Krypto -Unternehmen erforderten
- Mar 12, 2025 at 03:10 pm
- Der US -amerikanische Gesetzgeber stimmte dafür, eine IRS -Regel zu kündigen, die Kryptounternehmen, einschließlich der Defi -Plattformen, zum Sammeln und Bericht von Steuerzahler- und Transaktionsinformationen erforderten.
-
- Der US -Senator Cynthia Lummis führt das Bitcoin Act wieder ein, damit die Regierung möglicherweise mehr als 1 Million Bitcoin abhalten kann
- Mar 12, 2025 at 03:10 pm
- Die erstmals im Juli eingeführte Gesetzesvorlage weist die US -Regierung an, 200.000 Bitcoin BTCUSD pro Jahr über fünf Jahre für eine Gesamtübernahme von 1 Million Bitcoin zu kaufen
-
-
- Kryptomarkt: Bitcoin (BTC) Price ist heute 4%, um 82.000 USD zurückzugewinnen. Marktkapitalisierung um 3,33% auf 2,67 t $
- Mar 12, 2025 at 03:05 pm
- Der Kryptomarkt kehrte nach einem bärischen Lauf für 8-9 Tage in positivem Gebiet zurück. In den letzten 24 Stunden stieg die Krypto -Marktkapitalisierung um 3,33% auf 2,67 $
-
- Trotz eines wackeligen Kryptomarktes gibt es im Sektor Exchange Fund (ETF) immer noch viel Bewegung.
- Mar 12, 2025 at 03:05 pm
- Avalanche (AVAX) wird einen eigenen Fonds erhalten, der bis zur Genehmigung angeht, während die ETFER -Inhaber von Ethereum möglicherweise beginnen können, Belohnungen zu erhalten
-
- Immer mehr Ethereum (ETH) -Anvestoren richten sich die Mutuum -Finanzierung (MUTM) als frische Defi -Alternative aus
- Mar 12, 2025 at 03:05 pm
- Anstatt traditionelles Einbaus oder Renditezucht zu ergeben, werden diese Anleger von Mutuums innovativem Kreditprotokoll angezogen, das es ihnen ermöglicht, passive Renditen zu erzielen