|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
기계 학습 알고리즘은 예측에서 일치하는 패턴 또는 일치하는 이미지 생성에 이르기까지 다양한 작업을 처리하기 위해 개발되었습니다.
Recent years have seen a massive increase in the capabilities of machine learning algorithms, which can now perform a wide range of tasks, from making predictions to matching patterns or generating images that match text prompts. To enable them to take on such diverse roles, these models have been given a broad spectrum of capabilities, but one thing they rarely are is efficient.
최근 몇 년 동안 기계 학습 알고리즘의 기능이 크게 증가했으며, 이제 예측에서 일치하는 패턴 또는 텍스트 프롬프트와 일치하는 이미지 생성에 이르기까지 광범위한 작업을 수행 할 수 있습니다. 이러한 다양한 역할을 수행 할 수 있도록 이러한 모델은 광범위한 기능을 제공했지만 거의 한 가지는 거의 효율적입니다.
In the present era of exponential growth in the field, rapid advancements often come at the expense of efficiency. It is faster, after all, to produce a very large kitchen-sink model filled with redundancies than it is to produce a lean, mean inferencing machine.
현장에서 지수 성장의 현재 시대에, 빠른 발전은 종종 효율성을 희생시키면서 발생합니다. 결국, 평균 추론 기계를 생산하는 것보다 중복성으로 채워진 매우 큰 주방 싱크 모델을 생산하는 것이 더 빠릅니다.
But as these present algorithms continue to mature, more attention is being directed at slicing them down to smaller sizes. Even the most useful tools are of little value if they require such a large amount of computational resources that they are impractical for use in real-world applications. As you might expect, the more complex an algorithm is, the more challenging it is to shrink it down. That is what makes Hugging Face’s recent announcement so exciting — they have taken an axe to vision language models (VLMs), resulting in the release of new additions to the SmolVLM family — including SmolVLM-256M, the smallest VLM in the world.
그러나 이러한 현재 알고리즘이 계속 성숙함에 따라 더 작은 크기로 슬라이스하는 데 더 많은 관심을 받고 있습니다. 가장 유용한 도구조차도 실제 응용 프로그램에서 사용하기에 비현실적 인 많은 양의 계산 리소스가 필요하다면 가치가 거의 없습니다. 예상대로 알고리즘이 복잡할수록 축소하는 것이 더 어려워집니다. 이것이 바로 Hugging Face의 최근 발표를 매우 흥미롭게 만듭니다. 그들은 VLM (Vision Language Models)에서 도끼를 가져 왔으며, 세계에서 가장 작은 VLM 인 Smolvlm-256M을 포함하여 Smolvlm 가족에 새로운 추가 기능이 출시되었습니다.
SmolVLM-256M is an impressive example of optimization done right, with just 256 million parameters. Despite its small size, this model performs very well in tasks such as captioning, document-based question answering, and basic visual reasoning, outperforming older, much larger models like the Idefics 80B from just 17 months ago. The SmolVLM-500M model provides an additional performance boost, with 500 million parameters offering a middle ground between size and capability for those needing some extra headroom.
Smolvlm-256M은 2 억 2 천 6 백만 개의 매개 변수로 최적화의 인상적인 예입니다. 작은 크기에도 불구 하고이 모델은 캡션, 문서 기반 질문 답변 및 기본 시각적 추론과 같은 작업에서 매우 잘 수행되며 17 개월 전의 IDEFICS 80B와 같은 더 오래되고 훨씬 더 큰 모델을 능가합니다. Smolvlm-500m 모델은 추가 성능 향상을 제공하며 5 억 개의 매개 변수가 추가 헤드 룸이 필요한 사람들에게 크기와 기능 사이의 중간지면을 제공합니다.
Hugging Face achieved these advancements by refining its approach to vision encoders and data mixtures. The new models adopt the SigLIP base patch-16/512 encoder, which, though smaller than its predecessor, processes images at a higher resolution. This choice aligns with recent trends seen in Apple and Google research, which emphasize higher resolution for improved visual understanding without drastically increasing parameter counts.
Hugging Face는 시력 인코더 및 데이터 혼합물에 대한 접근 방식을 정제함으로써 이러한 발전을 달성했습니다. 새로운 모델은 Siglip Base Patch-16/512 인코더를 채택하는데, 이는 이전 모델보다 작지만 이미지를 더 높은 해상도로 처리합니다. 이 선택은 Apple 및 Google Research에서 볼 수있는 최근의 추세와 일치하며, 이는 매개 변수 수를 크게 증가시키지 않고 시각적 이해를 향상시키기위한 높은 해상도를 강조합니다.
The team also employed innovative tokenization methods to further streamline their models. By improving how sub-image separators are represented during tokenization, the models gained greater stability during training and achieved better quality outputs. For example, multi-token representations of image regions were replaced with single-token equivalents, enhancing both efficiency and accuracy.
이 팀은 또한 혁신적인 토큰 화 방법을 사용하여 모델을 더욱 간소화했습니다. 토큰 화 중에 하위 이미지 분리기가 어떻게 표현되는지 개선함으로써, 모델은 훈련 중에 더 큰 안정성을 얻었고 더 나은 품질의 출력을 달성했습니다. 예를 들어, 이미지 영역의 다중 점 표현은 단일 토형 등가물로 대체되어 효율성과 정확도를 모두 향상 시켰습니다.
In another advance, the data mixture strategy was fine-tuned to emphasize document understanding and image captioning, while maintaining a balanced focus on essential areas like visual reasoning and chart comprehension. These refinements are reflected in the model’s improved benchmarks which show both the 250M and 500M models outperforming Idefics 80B in nearly every category.
또 다른 미적으로, 데이터 혼합 전략은 문서 이해와 이미지 캡션을 강조하기 위해 미세 조정되었으며 시각적 추론 및 차트 이해와 같은 필수 영역에 균형 잡힌 초점을 유지했습니다. 이러한 개선은 모델의 개선 된 벤치 마크에 반영되어 거의 모든 카테고리에서 250m 및 500m 모델을 능가하는 IDEFICS 80B를 보여줍니다.
By demonstrating that small can indeed be mighty, these models pave the way for a future where advanced machine learning capabilities are both accessible and sustainable. If you want to help bring that future into being, go grab these models now. Hugging Face has open-sourced them, and with only modest hardware requirements, just about anyone can get in on the action.
소규모가 실제로 강력 할 수 있음을 입증함으로써 이러한 모델은 고급 머신 러닝 기능이 접근 가능하고 지속 가능한 미래를위한 길을 열었습니다. 미래를 존재하게하는 데 도움을주고 싶다면 지금이 모델을 잡으십시오. Hugging Face는 오픈 소스를 제공했으며, 하드웨어 요구 사항이 적은 사람이라면 누구나 행동에 참여할 수 있습니다.
부인 성명:info@kdj.com
The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!
If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.