![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
LLaVA-o1 は、中国の複数の大学の研究者によって開発された新しいモデルで、このパラダイムをオープンソースのビジョン言語モデル (VLM) にもたらします。
OpenAI’s o1 model demonstrated the potential of inference-time scaling for enhancing language models’ reasoning abilities. Now, researchers from multiple universities in China have applied this paradigm to open-source vision language models (VLMs) with their new LLaVA-o1 model.
OpenAI の o1 モデルは、言語モデルの推論能力を強化するための推論時間スケーリングの可能性を実証しました。現在、中国の複数の大学の研究者は、新しい LLaVA-o1 モデルを使用して、このパラダイムをオープンソースのビジョン言語モデル (VLM) に適用しています。
Most early open-source VLMs use a direct prediction approach, generating answers without explicitly reasoning about the prompt and the steps required to solve it. This approach limits their effectiveness on tasks that require logical reasoning. While advanced prompting techniques like chain-of-thought (CoT) prompting can encourage models to generate intermediate reasoning steps and produce some marginal improvements, VLMs are still prone to errors or hallucinations.
初期のオープンソース VLM のほとんどは、直接予測アプローチを使用し、プロンプトとその解決に必要な手順について明示的に推論することなく答えを生成します。このアプローチでは、論理的推論が必要なタスクでの有効性が制限されます。思考連鎖 (CoT) プロンプトなどの高度なプロンプト手法は、モデルが中間の推論ステップを生成し、わずかな改善をもたらすことができますが、VLM は依然としてエラーや幻覚を起こしやすい傾向があります。
The researchers observed that a key issue is the lack of a systematic and structured reasoning process in existing VLMs. The models don’t generate reasoning chains and often get stuck in reasoning processes where they don’t know at what stage they are and what specific problem they must solve.
研究者らは、既存の VLM には体系的かつ構造化された推論プロセスが欠如していることが重要な問題であると観察しました。モデルは推論チェーンを生成せず、多くの場合、モデルがどの段階にあるのか、どの具体的な問題を解決する必要があるのかが分からない推論プロセスで行き詰まってしまいます。
“We observe that VLMs often initiate responses without adequately organizing the problem and the available information,” the researchers write. “Moreover, they frequently deviate from a logical reasoning toward conclusions, instead of presenting a conclusion prematurely and subsequently attempting to justify it. Given that language models generate responses token-by-token, once an erroneous conclusion is introduced, the model typically continues along a flawed reasoning path.”
「VLMは問題や利用可能な情報を適切に整理せずに対応を開始することが多いことが観察されています」と研究者らは書いている。 「さらに、彼らは時期尚早に結論を提示し、その後それを正当化しようとするのではなく、結論に向けた論理的推論から逸脱することがよくあります。言語モデルがトークンごとに応答を生成することを考えると、一度誤った結論が導入されると、モデルは通常、欠陥のある推論パスに沿って進み続けます。」
Multistage reasoning
多段階推論
OpenAI o1 uses inference-time scaling to solve the systematic and structured reasoning problem and allows the model to pause and review its results as it gradually solves the problem. While OpenAI has not released much detail about the underlying mechanism of o1, its results show promising directions for improving the reasoning abilities of foundational models.
OpenAI o1 は、推論時間のスケーリングを使用して体系的かつ構造化された推論問題を解決し、問題を徐々に解決する際にモデルを一時停止して結果を確認できるようにします。 OpenAI は、o1 の基礎となるメカニズムについてあまり詳細を発表していませんが、その結果は、基礎モデルの推論能力を向上させるための有望な方向性を示しています。
Inspired by o1, the researchers designed LLaVA-o1 to perform stage-by-stage reasoning. Instead of generating a direct reasoning chain, LLaVA-o1 breaks down the reasoning process into four distinct stages:
o1 に触発されて、研究者らは段階ごとの推論を実行する LLaVA-o1 を設計しました。 LLaVA-o1 は、直接的な推論チェーンを生成する代わりに、推論プロセスを 4 つの異なる段階に分割します。
Summary: The model first provides a high-level summary of the question, outlining the core problem it needs to address.
概要: モデルは最初に質問の概要を提供し、対処する必要がある中心的な問題の概要を示します。
Caption: If an image is present, the model describes the relevant parts, focusing on elements related to the question.
キャプション: 画像が存在する場合、モデルは質問に関連する要素に焦点を当てて関連部分を説明します。
Reasoning: Building on the summary, the model performs structured, logical reasoning to derive a preliminary answer.
推論: モデルは要約に基づいて、構造化された論理的な推論を実行して、暫定的な答えを導き出します。
Conclusion: Finally, the model presents a concise summary of the answer based on the preceding reasoning.
結論: 最後に、モデルは、前述の推論に基づいて、答えの簡潔な要約を提示します。
Only the conclusion stage is visible to the user; the other three stages represent the model’s internal reasoning process, similar to the hidden reasoning trace of o1. This structured approach allows LLaVA-o1 to manage its reasoning process independently, leading to improved performance on complex tasks.
ユーザーには結論段階のみが表示されます。他の 3 つのステージは、o1 の隠れた推論トレースと同様に、モデルの内部推論プロセスを表します。この構造化されたアプローチにより、LLaVA-o1 は推論プロセスを独立して管理できるようになり、複雑なタスクのパフォーマンスが向上します。
“This structured approach enables the model to independently manage its reasoning process, improving its adaptability and performance on complex reasoning tasks,” the researchers write.
「この構造化されたアプローチにより、モデルは推論プロセスを独立して管理できるようになり、複雑な推論タスクに対する適応性とパフォーマンスが向上します」と研究者らは書いている。
LLaVA-o1 also introduces a novel inference-time scaling technique called “stage-level beam search.” Stage-level beam search generates multiple candidate outputs at each reasoning stage. It then selects the best candidate at each stage to continue the generation process. This is in contrast to the classic best-of-N approach, in which the model is prompted to generate multiple complete responses before selecting one.
LLaVA-o1 では、「ステージレベルのビームサーチ」と呼ばれる新しい推論時間スケーリング手法も導入されています。ステージレベルのビーム探索では、各推論ステージで複数の候補出力が生成されます。次に、各段階で最適な候補を選択し、生成プロセスを続行します。これは、モデルが 1 つを選択する前に複数の完全な応答を生成するように求められる、古典的な best-of-N アプローチとは対照的です。
“Notably, it is the structured output design of LLaVA-o1 that makes this approach feasible, enabling efficient and accurate verification at each stage,” the researchers write. “This validates the effectiveness of structured output in improving inference time scaling.”
「特に、LLaVA-o1 の構造化された出力設計により、このアプローチが実現可能となり、各段階で効率的かつ正確な検証が可能になります」と研究者らは書いています。 「これにより、推論時間のスケーリングを改善する際の構造化出力の有効性が検証されました。」
Training LLaVA-o1
トレーニング LLaVA-o1
To train LLaVA-o1, the researchers compiled a new dataset of around 100,000 image-question-answer pairs obtained from several widely used VQA datasets. The dataset covers a variety of tasks, from multi-turn question answering to chart interpretation and geometric reasoning.
LLaVA-o1 をトレーニングするために、研究者らは、広く使用されているいくつかの VQA データセットから取得した約 100,000 個の画像と質問と回答のペアからなる新しいデータセットを編集しました。このデータセットは、マルチターンの質問応答からチャートの解釈や幾何学的な推論まで、さまざまなタスクをカバーしています。
The researchers used GPT-4o to generate the detailed four-stage reasoning processes for each example, including the summary, caption, reasoning and conclusion stages.
研究者らは GPT-4o を使用して、各例について、要約、キャプション、推論、結論の各段階を含む詳細な 4 段階の推論プロセスを生成しました。
The researchers then fine-tuned Llama-3.2-11B-Vision-Instruct on this dataset to obtain the final LLaVA-o1 model. The researchers have not released the model but plan to release the dataset, called the LLaVA-o1-100k.
次に研究者らは、このデータセットに対して Llama-3.2-11B-Vision-Instruct を微調整して、最終的な LLaVA-o1 モデルを取得しました。研究者らはモデルを公開していないが、LLaVA-o1-100kと呼ばれるデータセットを公開する予定だ。
LLaVA-o1 in action
LLaVA-o1の動作中
The researchers evaluated LLaVA-o1 on several multimodal reasoning benchmarks. Despite being trained on only 100,000 examples, LLaVA-o1 showed significant performance improvements over the base Llama model, with an average benchmark score increase of 6.9%.
研究者らは、いくつかのマルチモーダル推論ベンチマークで LLaVA-o1 を評価しました。 LLaVA-o1 は、わずか 100,000 例でトレーニングされたにもかかわらず、基本 Llama モデルと比べてパフォーマンスが大幅に向上し、平均ベンチマーク スコアが 6.9% 向上しました。
Furthermore, stage-level beam search led to additional performance gains, demonstrating the effectiveness of inference-time scaling. Due to computational resource constraints, the researchers were only able to test the technique with a beam size of 2. They expect even greater improvements with larger beam sizes.
さらに、ステージレベルのビームサーチによりさらなるパフォーマンスの向上がもたらされ、推論時間のスケーリングの有効性が実証されました。計算リソースの制約により、研究者らはビーム サイズ 2 でのみこの技術をテストできました。彼らは、ビーム サイズが大きくなるとさらに大きな改善が期待されます。
Impressively, LLaVA-o1 outperformed not only other open-source models of the same size or larger but also some closed-
印象的なことに、LLaVA-o1 は、同じサイズ以上の他のオープンソース モデルだけでなく、一部のクローズド モデルよりも優れたパフォーマンスを示しました。
免責事項:info@kdj.com
提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。
このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。