Marktkapitalisierung: $2.6438T 1.350%
Volumen (24h): $115.9961B -26.120%
  • Marktkapitalisierung: $2.6438T 1.350%
  • Volumen (24h): $115.9961B -26.120%
  • Angst- und Gier-Index:
  • Marktkapitalisierung: $2.6438T 1.350%
Cryptos
Themen
Cryptospedia
Nachricht
CryptosTopics
Videos
Top News
Cryptos
Themen
Cryptospedia
Nachricht
CryptosTopics
Videos
bitcoin
bitcoin

$81480.024097 USD

-1.47%

ethereum
ethereum

$1917.647074 USD

-9.08%

tether
tether

$0.999934 USD

-0.01%

xrp
xrp

$2.135157 USD

-2.74%

bnb
bnb

$560.495410 USD

-0.86%

solana
solana

$123.934739 USD

-3.77%

usd-coin
usd-coin

$0.999920 USD

-0.02%

cardano
cardano

$0.732452 USD

-2.80%

dogecoin
dogecoin

$0.160484 USD

-8.70%

tron
tron

$0.230256 USD

-2.00%

pi
pi

$1.369992 USD

-3.68%

unus-sed-leo
unus-sed-leo

$9.742460 USD

0.04%

hedera
hedera

$0.200285 USD

-5.91%

chainlink
chainlink

$12.987043 USD

-8.68%

stellar
stellar

$0.253812 USD

-5.21%

Nachrichtenartikel zu Kryptowährungen

LLaVA-o1: Ein neues Open-Source-Vision-Sprachmodell, das die Skalierung der Inferenzzeit in das multimodale Denken integriert

Nov 23, 2024 at 07:26 am

LLaVA-o1, ein neues Modell, das von Forschern mehrerer Universitäten in China entwickelt wurde, überträgt dieses Paradigma auf Open-Source-Vision-Language-Modelle (VLMs).

LLaVA-o1: Ein neues Open-Source-Vision-Sprachmodell, das die Skalierung der Inferenzzeit in das multimodale Denken integriert

OpenAI’s o1 model demonstrated the potential of inference-time scaling for enhancing language models’ reasoning abilities. Now, researchers from multiple universities in China have applied this paradigm to open-source vision language models (VLMs) with their new LLaVA-o1 model.

Das o1-Modell von OpenAI demonstrierte das Potenzial der Inferenzzeitskalierung zur Verbesserung der Argumentationsfähigkeiten von Sprachmodellen. Jetzt haben Forscher mehrerer Universitäten in China dieses Paradigma mit ihrem neuen LLaVA-o1-Modell auf Open-Source-Vision-Language-Modelle (VLMs) angewendet.

Most early open-source VLMs use a direct prediction approach, generating answers without explicitly reasoning about the prompt and the steps required to solve it. This approach limits their effectiveness on tasks that require logical reasoning. While advanced prompting techniques like chain-of-thought (CoT) prompting can encourage models to generate intermediate reasoning steps and produce some marginal improvements, VLMs are still prone to errors or hallucinations.

Die meisten frühen Open-Source-VLMs verwenden einen direkten Vorhersageansatz und generieren Antworten, ohne explizit über die Eingabeaufforderung und die zu ihrer Lösung erforderlichen Schritte nachzudenken. Dieser Ansatz schränkt ihre Wirksamkeit bei Aufgaben ein, die logisches Denken erfordern. Während fortschrittliche Eingabeaufforderungstechniken wie Chain-of-Think (CoT)-Eingabeaufforderung Modelle dazu ermutigen können, Zwischenschritte für das Denken zu generieren und einige geringfügige Verbesserungen zu erzielen, sind VLMs immer noch anfällig für Fehler oder Halluzinationen.

The researchers observed that a key issue is the lack of a systematic and structured reasoning process in existing VLMs. The models don’t generate reasoning chains and often get stuck in reasoning processes where they don’t know at what stage they are and what specific problem they must solve.

Die Forscher stellten fest, dass ein zentrales Problem das Fehlen eines systematischen und strukturierten Argumentationsprozesses in bestehenden VLMs ist. Die Modelle erzeugen keine Argumentationsketten und bleiben oft in Argumentationsprozessen stecken, bei denen sie nicht wissen, in welchem ​​Stadium sie sich befinden und welches spezifische Problem sie lösen müssen.

“We observe that VLMs often initiate responses without adequately organizing the problem and the available information,” the researchers write. “Moreover, they frequently deviate from a logical reasoning toward conclusions, instead of presenting a conclusion prematurely and subsequently attempting to justify it. Given that language models generate responses token-by-token, once an erroneous conclusion is introduced, the model typically continues along a flawed reasoning path.”

„Wir beobachten, dass VLMs oft Antworten einleiten, ohne das Problem und die verfügbaren Informationen angemessen zu organisieren“, schreiben die Forscher. „Außerdem weichen sie häufig von einer logischen Argumentation hin zu Schlussfolgerungen ab, anstatt eine Schlussfolgerung voreilig darzulegen und anschließend zu versuchen, sie zu begründen.“ Angesichts der Tatsache, dass Sprachmodelle Antworten Token für Token generieren, setzt das Modell, sobald eine fehlerhafte Schlussfolgerung eingeführt wird, typischerweise einen fehlerhaften Argumentationspfad fort.“

Multistage reasoning

Mehrstufiges Denken

OpenAI o1 uses inference-time scaling to solve the systematic and structured reasoning problem and allows the model to pause and review its results as it gradually solves the problem. While OpenAI has not released much detail about the underlying mechanism of o1, its results show promising directions for improving the reasoning abilities of foundational models.

OpenAI o1 nutzt Inferenzzeitskalierung, um das Problem des systematischen und strukturierten Denkens zu lösen, und ermöglicht es dem Modell, anzuhalten und seine Ergebnisse zu überprüfen, während es das Problem schrittweise löst. Obwohl OpenAI nicht viele Details über den zugrunde liegenden Mechanismus von o1 veröffentlicht hat, zeigen seine Ergebnisse vielversprechende Wege zur Verbesserung der Argumentationsfähigkeiten grundlegender Modelle auf.

Inspired by o1, the researchers designed LLaVA-o1 to perform stage-by-stage reasoning. Instead of generating a direct reasoning chain, LLaVA-o1 breaks down the reasoning process into four distinct stages:

Inspiriert von o1 entwickelten die Forscher LLaVA-o1, um stufenweises Denken durchzuführen. Anstatt eine direkte Argumentationskette zu generieren, unterteilt LLaVA-o1 den Argumentationsprozess in vier verschiedene Phasen:

Summary: The model first provides a high-level summary of the question, outlining the core problem it needs to address.

Zusammenfassung: Das Modell liefert zunächst eine allgemeine Zusammenfassung der Frage und umreißt das Kernproblem, das es angehen muss.

Caption: If an image is present, the model describes the relevant parts, focusing on elements related to the question.

Bildunterschrift: Wenn ein Bild vorhanden ist, beschreibt das Modell die relevanten Teile und konzentriert sich dabei auf Elemente, die mit der Frage in Zusammenhang stehen.

Reasoning: Building on the summary, the model performs structured, logical reasoning to derive a preliminary answer.

Argumentation: Aufbauend auf der Zusammenfassung führt das Modell eine strukturierte, logische Argumentation durch, um eine vorläufige Antwort abzuleiten.

Conclusion: Finally, the model presents a concise summary of the answer based on the preceding reasoning.

Schlussfolgerung: Abschließend präsentiert das Modell eine prägnante Zusammenfassung der Antwort, die auf der vorangegangenen Argumentation basiert.

Only the conclusion stage is visible to the user; the other three stages represent the model’s internal reasoning process, similar to the hidden reasoning trace of o1. This structured approach allows LLaVA-o1 to manage its reasoning process independently, leading to improved performance on complex tasks.

Für den Benutzer ist nur die Abschlussphase sichtbar. Die anderen drei Phasen stellen den internen Argumentationsprozess des Modells dar, ähnlich der verborgenen Argumentationsspur von o1. Dieser strukturierte Ansatz ermöglicht es LLaVA-o1, seinen Argumentationsprozess unabhängig zu verwalten, was zu einer verbesserten Leistung bei komplexen Aufgaben führt.

“This structured approach enables the model to independently manage its reasoning process, improving its adaptability and performance on complex reasoning tasks,” the researchers write.

„Dieser strukturierte Ansatz ermöglicht es dem Modell, seinen Denkprozess unabhängig zu verwalten, wodurch seine Anpassungsfähigkeit und Leistung bei komplexen Denkaufgaben verbessert wird“, schreiben die Forscher.

LLaVA-o1 also introduces a novel inference-time scaling technique called “stage-level beam search.” Stage-level beam search generates multiple candidate outputs at each reasoning stage. It then selects the best candidate at each stage to continue the generation process. This is in contrast to the classic best-of-N approach, in which the model is prompted to generate multiple complete responses before selecting one.

LLaVA-o1 führt außerdem eine neuartige Inferenzzeitskalierungstechnik namens „Stage-Level Beam Search“ ein. Die Strahlsuche auf Stufenebene generiert in jeder Argumentationsstufe mehrere Kandidatenausgaben. Anschließend wählt es in jeder Phase den besten Kandidaten aus, um den Generierungsprozess fortzusetzen. Dies steht im Gegensatz zum klassischen Best-of-N-Ansatz, bei dem das Modell aufgefordert wird, mehrere vollständige Antworten zu generieren, bevor es eine auswählt.

“Notably, it is the structured output design of LLaVA-o1 that makes this approach feasible, enabling efficient and accurate verification at each stage,” the researchers write. “This validates the effectiveness of structured output in improving inference time scaling.”

„Besonders ist es das strukturierte Ausgabedesign von LLaVA-o1, das diesen Ansatz möglich macht und eine effiziente und genaue Überprüfung in jeder Phase ermöglicht“, schreiben die Forscher. „Dies bestätigt die Wirksamkeit der strukturierten Ausgabe bei der Verbesserung der Inferenzzeitskalierung.“

Training LLaVA-o1

Ausbildung LLaVA-o1

To train LLaVA-o1, the researchers compiled a new dataset of around 100,000 image-question-answer pairs obtained from several widely used VQA datasets. The dataset covers a variety of tasks, from multi-turn question answering to chart interpretation and geometric reasoning.

Um LLaVA-o1 zu trainieren, stellten die Forscher einen neuen Datensatz mit rund 100.000 Bild-Frage-Antwort-Paaren zusammen, die aus mehreren weit verbreiteten VQA-Datensätzen gewonnen wurden. Der Datensatz deckt eine Vielzahl von Aufgaben ab, von der Beantwortung von Fragen mit mehreren Runden über die Interpretation von Diagrammen bis hin zum geometrischen Denken.

The researchers used GPT-4o to generate the detailed four-stage reasoning processes for each example, including the summary, caption, reasoning and conclusion stages.

Die Forscher verwendeten GPT-4o, um die detaillierten vierstufigen Argumentationsprozesse für jedes Beispiel zu generieren, einschließlich der Phasen Zusammenfassung, Bildunterschrift, Begründung und Schlussfolgerung.

The researchers then fine-tuned Llama-3.2-11B-Vision-Instruct on this dataset to obtain the final LLaVA-o1 model. The researchers have not released the model but plan to release the dataset, called the LLaVA-o1-100k.

Anschließend optimierten die Forscher Llama-3.2-11B-Vision-Instruct anhand dieses Datensatzes, um das endgültige LLaVA-o1-Modell zu erhalten. Die Forscher haben das Modell noch nicht veröffentlicht, planen jedoch die Veröffentlichung des Datensatzes namens LLaVA-o1-100k.

LLaVA-o1 in action

LLaVA-o1 in Aktion

The researchers evaluated LLaVA-o1 on several multimodal reasoning benchmarks. Despite being trained on only 100,000 examples, LLaVA-o1 showed significant performance improvements over the base Llama model, with an average benchmark score increase of 6.9%.

Die Forscher bewerteten LLaVA-o1 anhand mehrerer Benchmarks für multimodales Denken. Obwohl LLaVA-o1 nur an 100.000 Beispielen trainiert wurde, zeigte es deutliche Leistungsverbesserungen gegenüber dem Basismodell Llama, mit einer durchschnittlichen Benchmark-Ergebnissteigerung von 6,9 %.

Furthermore, stage-level beam search led to additional performance gains, demonstrating the effectiveness of inference-time scaling. Due to computational resource constraints, the researchers were only able to test the technique with a beam size of 2. They expect even greater improvements with larger beam sizes.

Darüber hinaus führte die Strahlsuche auf Bühnenebene zu zusätzlichen Leistungssteigerungen und demonstrierte die Wirksamkeit der Inferenzzeitskalierung. Aufgrund von Rechenressourcenbeschränkungen konnten die Forscher die Technik nur mit einer Strahlgröße von 2 testen. Sie erwarten noch größere Verbesserungen bei größeren Strahlgrößen.

Impressively, LLaVA-o1 outperformed not only other open-source models of the same size or larger but also some closed-

Beeindruckenderweise übertraf LLaVA-o1 nicht nur andere Open-Source-Modelle gleicher oder größerer Größe, sondern auch einige geschlossene Modelle.

Haftungsausschluss:info@kdj.com

Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!

Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.

Weitere Artikel veröffentlicht am Mar 12, 2025