![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
중국 내 여러 대학의 연구원들이 개발한 새로운 모델인 LLaVA-o1은 이러한 패러다임을 오픈 소스 비전 언어 모델(VLM)에 도입합니다.
OpenAI’s o1 model demonstrated the potential of inference-time scaling for enhancing language models’ reasoning abilities. Now, researchers from multiple universities in China have applied this paradigm to open-source vision language models (VLMs) with their new LLaVA-o1 model.
OpenAI의 o1 모델은 언어 모델의 추론 능력을 향상시키기 위한 추론 시간 확장의 잠재력을 보여주었습니다. 이제 중국 내 여러 대학의 연구자들은 새로운 LLaVA-o1 모델을 통해 이 패러다임을 오픈 소스 비전 언어 모델(VLM)에 적용했습니다.
Most early open-source VLMs use a direct prediction approach, generating answers without explicitly reasoning about the prompt and the steps required to solve it. This approach limits their effectiveness on tasks that require logical reasoning. While advanced prompting techniques like chain-of-thought (CoT) prompting can encourage models to generate intermediate reasoning steps and produce some marginal improvements, VLMs are still prone to errors or hallucinations.
대부분의 초기 오픈 소스 VLM은 직접 예측 접근 방식을 사용하여 프롬프트와 이를 해결하는 데 필요한 단계에 대해 명시적으로 추론하지 않고 답변을 생성합니다. 이 접근 방식은 논리적 추론이 필요한 작업에 대한 효율성을 제한합니다. CoT(사고 사슬) 프롬프트와 같은 고급 프롬프트 기술은 모델이 중간 추론 단계를 생성하고 약간의 개선을 생성하도록 장려할 수 있지만 VLM은 여전히 오류나 환각에 취약합니다.
The researchers observed that a key issue is the lack of a systematic and structured reasoning process in existing VLMs. The models don’t generate reasoning chains and often get stuck in reasoning processes where they don’t know at what stage they are and what specific problem they must solve.
연구원들은 기존 VLM에 체계적이고 구조화된 추론 프로세스가 부족하다는 것이 주요 문제라는 점을 발견했습니다. 모델은 추론 체인을 생성하지 않으며 자신이 어떤 단계에 있는지, 어떤 특정 문제를 해결해야 하는지 알지 못하는 추론 프로세스에 갇히는 경우가 많습니다.
“We observe that VLMs often initiate responses without adequately organizing the problem and the available information,” the researchers write. “Moreover, they frequently deviate from a logical reasoning toward conclusions, instead of presenting a conclusion prematurely and subsequently attempting to justify it. Given that language models generate responses token-by-token, once an erroneous conclusion is introduced, the model typically continues along a flawed reasoning path.”
연구원들은 “VLM이 문제와 이용 가능한 정보를 적절하게 구성하지 않은 채 대응을 시작하는 경우가 많다는 것을 관찰했습니다.”라고 썼습니다. “게다가 성급하게 결론을 제시하고 나중에 그것을 정당화하려고 시도하는 대신 결론을 향한 논리적 추론에서 벗어나는 경우가 많습니다. 언어 모델이 토큰별로 응답을 생성한다는 점을 감안할 때 잘못된 결론이 도출되면 모델은 일반적으로 결함이 있는 추론 경로를 따라 계속됩니다.”
Multistage reasoning
다단계 추론
OpenAI o1 uses inference-time scaling to solve the systematic and structured reasoning problem and allows the model to pause and review its results as it gradually solves the problem. While OpenAI has not released much detail about the underlying mechanism of o1, its results show promising directions for improving the reasoning abilities of foundational models.
OpenAI o1은 추론 시간 확장을 사용하여 체계적이고 구조화된 추론 문제를 해결하고 모델이 문제를 점진적으로 해결하면서 결과를 일시 중지하고 검토할 수 있도록 합니다. OpenAI는 o1의 기본 메커니즘에 대해 자세히 공개하지 않았지만 그 결과는 기본 모델의 추론 능력을 향상시키기 위한 유망한 방향을 보여줍니다.
Inspired by o1, the researchers designed LLaVA-o1 to perform stage-by-stage reasoning. Instead of generating a direct reasoning chain, LLaVA-o1 breaks down the reasoning process into four distinct stages:
o1에서 영감을 받아 연구원들은 단계별 추론을 수행하도록 LLaVA-o1을 설계했습니다. 직접적인 추론 체인을 생성하는 대신 LLaVA-o1은 추론 프로세스를 네 가지 단계로 나눕니다.
Summary: The model first provides a high-level summary of the question, outlining the core problem it needs to address.
요약: 모델은 먼저 문제에 대한 높은 수준의 요약을 제공하고 해결해야 할 핵심 문제의 개요를 설명합니다.
Caption: If an image is present, the model describes the relevant parts, focusing on elements related to the question.
캡션: 이미지가 있는 경우 모델은 질문과 관련된 요소를 중심으로 해당 부분을 설명합니다.
Reasoning: Building on the summary, the model performs structured, logical reasoning to derive a preliminary answer.
추론: 모델은 요약을 기반으로 구조화된 논리적 추론을 수행하여 예비 답변을 도출합니다.
Conclusion: Finally, the model presents a concise summary of the answer based on the preceding reasoning.
결론: 마지막으로 모델은 앞선 추론을 바탕으로 답변을 간결하게 요약합니다.
Only the conclusion stage is visible to the user; the other three stages represent the model’s internal reasoning process, similar to the hidden reasoning trace of o1. This structured approach allows LLaVA-o1 to manage its reasoning process independently, leading to improved performance on complex tasks.
사용자에게는 결론 단계만 표시됩니다. 나머지 세 단계는 o1의 숨겨진 추론 추적과 유사한 모델의 내부 추론 프로세스를 나타냅니다. 이러한 구조화된 접근 방식을 통해 LLaVA-o1은 추론 프로세스를 독립적으로 관리하여 복잡한 작업의 성능을 향상시킬 수 있습니다.
“This structured approach enables the model to independently manage its reasoning process, improving its adaptability and performance on complex reasoning tasks,” the researchers write.
연구원들은 “이 구조화된 접근 방식을 통해 모델은 추론 프로세스를 독립적으로 관리하여 복잡한 추론 작업에 대한 적응성과 성능을 향상시킬 수 있습니다.”라고 썼습니다.
LLaVA-o1 also introduces a novel inference-time scaling technique called “stage-level beam search.” Stage-level beam search generates multiple candidate outputs at each reasoning stage. It then selects the best candidate at each stage to continue the generation process. This is in contrast to the classic best-of-N approach, in which the model is prompted to generate multiple complete responses before selecting one.
LLaVA-o1은 또한 "스테이지 레벨 빔 검색"이라는 새로운 추론 시간 스케일링 기술을 도입합니다. 단계 수준 빔 검색은 각 추론 단계에서 여러 후보 출력을 생성합니다. 그런 다음 각 단계에서 가장 적합한 후보를 선택하여 생성 프로세스를 계속합니다. 이는 모델이 하나를 선택하기 전에 여러 개의 완전한 응답을 생성하도록 요청하는 고전적인 N개 최고 접근 방식과 대조됩니다.
“Notably, it is the structured output design of LLaVA-o1 that makes this approach feasible, enabling efficient and accurate verification at each stage,” the researchers write. “This validates the effectiveness of structured output in improving inference time scaling.”
연구원들은 “특히 이 접근 방식을 가능하게 하고 각 단계에서 효율적이고 정확한 검증을 가능하게 하는 것은 LLaVA-o1의 구조화된 출력 설계입니다.”라고 썼습니다. "이는 추론 시간 확장을 개선하는 데 있어 구조화된 출력의 효율성을 검증합니다."
Training LLaVA-o1
LLaVA-o1 교육
To train LLaVA-o1, the researchers compiled a new dataset of around 100,000 image-question-answer pairs obtained from several widely used VQA datasets. The dataset covers a variety of tasks, from multi-turn question answering to chart interpretation and geometric reasoning.
LLaVA-o1을 교육하기 위해 연구원들은 널리 사용되는 여러 VQA 데이터 세트에서 얻은 약 100,000개의 이미지-질문-답변 쌍으로 구성된 새로운 데이터 세트를 편집했습니다. 데이터 세트는 다중 턴 질문 답변부터 차트 해석 및 기하학적 추론에 이르기까지 다양한 작업을 다룹니다.
The researchers used GPT-4o to generate the detailed four-stage reasoning processes for each example, including the summary, caption, reasoning and conclusion stages.
연구원들은 GPT-4o를 사용하여 요약, 캡션, 추론 및 결론 단계를 포함하여 각 사례에 대한 상세한 4단계 추론 프로세스를 생성했습니다.
The researchers then fine-tuned Llama-3.2-11B-Vision-Instruct on this dataset to obtain the final LLaVA-o1 model. The researchers have not released the model but plan to release the dataset, called the LLaVA-o1-100k.
그런 다음 연구원들은 이 데이터 세트에서 Llama-3.2-11B-Vision-Instruct를 미세 조정하여 최종 LLaVA-o1 모델을 얻었습니다. 연구원들은 모델을 공개하지 않았지만 LLaVA-o1-100k라는 데이터세트를 공개할 계획입니다.
LLaVA-o1 in action
LLaVA-o1 작동 중
The researchers evaluated LLaVA-o1 on several multimodal reasoning benchmarks. Despite being trained on only 100,000 examples, LLaVA-o1 showed significant performance improvements over the base Llama model, with an average benchmark score increase of 6.9%.
연구원들은 여러 다중 모드 추론 벤치마크에서 LLaVA-o1을 평가했습니다. LLaVA-o1은 100,000개의 예시에 대해서만 교육을 받았음에도 불구하고 기본 Llama 모델에 비해 상당한 성능 향상을 보여 평균 벤치마크 점수가 6.9% 증가했습니다.
Furthermore, stage-level beam search led to additional performance gains, demonstrating the effectiveness of inference-time scaling. Due to computational resource constraints, the researchers were only able to test the technique with a beam size of 2. They expect even greater improvements with larger beam sizes.
또한 스테이지 수준 빔 검색을 통해 추가적인 성능 향상이 이루어졌으며 추론 시간 확장의 효율성이 입증되었습니다. 계산 리소스 제약으로 인해 연구원들은 빔 크기가 2인 경우에만 기술을 테스트할 수 있었습니다. 그들은 더 큰 빔 크기로 훨씬 더 큰 개선을 기대합니다.
Impressively, LLaVA-o1 outperformed not only other open-source models of the same size or larger but also some closed-
놀랍게도 LLaVA-o1은 동일 크기 이상의 다른 오픈 소스 모델뿐만 아니라 일부 폐쇄형 모델에서도 성능이 뛰어났습니다.
부인 성명:info@kdj.com
제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!
본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.