시가총액: $2.6519T 5.030%
거래량(24시간): $92.5927B -28.910%
  • 시가총액: $2.6519T 5.030%
  • 거래량(24시간): $92.5927B -28.910%
  • 공포와 탐욕 지수:
  • 시가총액: $2.6519T 5.030%
암호화
주제
암호화
소식
cryptostopics
비디오
최고의 뉴스
암호화
주제
암호화
소식
cryptostopics
비디오
bitcoin
bitcoin

$80526.588300 USD

-1.29%

ethereum
ethereum

$1540.127221 USD

-4.23%

tether
tether

$0.999410 USD

-0.03%

xrp
xrp

$1.992067 USD

0.59%

bnb
bnb

$578.240064 USD

0.73%

usd-coin
usd-coin

$1.000005 USD

0.01%

solana
solana

$114.989272 USD

-0.41%

dogecoin
dogecoin

$0.156351 USD

1.19%

tron
tron

$0.235315 USD

-1.20%

cardano
cardano

$0.620256 USD

1.42%

unus-sed-leo
unus-sed-leo

$9.411993 USD

0.23%

chainlink
chainlink

$12.296466 USD

0.33%

avalanche
avalanche

$18.470197 USD

2.97%

toncoin
toncoin

$2.925237 USD

-3.48%

hedera
hedera

$0.169941 USD

2.85%

암호화폐 뉴스 기사

VideoLLaMA3: 모든 해상도 비전 토큰화 및 Differential Frame Pruner를 갖춘 다중 모드 모델을 위한 비전 중심 프레임워크

2025/01/26 14:00

다중 모드 지능의 발전은 이미지와 비디오를 처리하고 이해하는 데 달려 있습니다. 이미지는 객체, 텍스트, 공간 관계 등 세부 정보에 관한 정보를 제공하여 정적 장면을 드러낼 수 있습니다. 그러나 이는 극도로 어려운 대가를 치르게 됩니다. 비디오 이해에는 여러 작업 중에서 시간 경과에 따른 변화를 추적하는 동시에 프레임 전반에 걸쳐 일관성을 보장하는 작업이 포함되며 동적 콘텐츠 관리 및 시간적 관계가 필요합니다. 비디오 텍스트 데이터세트의 수집과 주석이 이미지-텍스트 데이터세트에 비해 상대적으로 어렵기 때문에 이러한 작업은 더욱 어려워집니다.

VideoLLaMA3: 모든 해상도 비전 토큰화 및 Differential Frame Pruner를 갖춘 다중 모드 모델을 위한 비전 중심 프레임워크

Advancements in multimodal intelligence hinge on the ability to process and understand images and videos. While images provide a snapshot of a static scene, offering details on objects, text, and spatial relationships, videos introduce an additional layer of complexity. Video comprehension entails tracking changes over time and ensuring consistency across frames, demanding dynamic content management and an understanding of temporal relationships. However, the collection and annotation of video-text datasets pale in comparison to the abundance of image-text datasets.

다중 모드 지능의 발전은 이미지와 비디오를 처리하고 이해하는 능력에 달려 있습니다. 이미지는 정적 장면의 스냅샷을 제공하여 개체, 텍스트 및 공간 관계에 대한 세부 정보를 제공하는 반면, 비디오는 복잡성을 한층 더 가중시킵니다. 비디오 이해에는 시간에 따른 변화 추적과 프레임 전반의 일관성 보장, 동적 콘텐츠 관리 및 시간 관계에 대한 이해가 필요합니다. 그러나 비디오 텍스트 데이터세트의 수집 및 주석은 풍부한 이미지 텍스트 데이터세트에 비해 부족합니다.

Traditional methods for multimodal large language models (MLLMs) encounter challenges in video understanding. Approaches such as sparsely sampled frames, basic connectors, and image-based encoders fail to effectively capture temporal dependencies and dynamic content. Techniques like token compression and extended context windows struggle with long-form video complexity, while integrating audio and visual inputs often lacks seamless interaction. Efforts in real-time processing and scaling model sizes remain inefficient, and existing architectures are not optimized for handling long video tasks.

다중 모드 대형 언어 모델(MLLM)에 대한 기존 방법은 비디오를 이해하는 데 어려움을 겪습니다. 드물게 샘플링된 프레임, 기본 커넥터 및 이미지 기반 인코더와 같은 접근 방식은 시간적 종속성과 동적 콘텐츠를 효과적으로 캡처하지 못합니다. 토큰 압축 및 확장된 컨텍스트 창과 같은 기술은 긴 형식의 비디오 복잡성으로 인해 어려움을 겪는 반면, 오디오 및 시각적 입력을 통합하면 원활한 상호 작용이 부족한 경우가 많습니다. 실시간 처리 및 모델 크기 확장에 대한 노력은 여전히 ​​비효율적이며 기존 아키텍처는 긴 비디오 작업을 처리하는 데 최적화되어 있지 않습니다.

To address these challenges in video understanding, researchers from Alibaba Group proposed the VideoLLaMA3 framework, which incorporates Any-resolution Vision Tokenization (AVT) and Differential Frame Pruner (DiffFP). AVT improves upon traditional fixed-resolution tokenization by enabling vision encoders to process variable resolutions dynamically, reducing information loss. This is achieved by adapting ViT-based encoders with 2D-RoPE for flexible position embedding.

비디오 이해의 이러한 문제를 해결하기 위해 Alibaba Group의 연구원은 AVT(Any-Resolution Vision Tokenization)와 DiffFP(Differential Frame Pruner)를 통합하는 VideoLLaMA3 프레임워크를 제안했습니다. AVT는 비전 인코더가 가변 해상도를 동적으로 처리하여 정보 손실을 줄임으로써 기존의 고정 해상도 토큰화를 개선합니다. 이는 유연한 위치 임베딩을 위해 2D-RoPE를 갖춘 ViT 기반 인코더를 적용함으로써 달성됩니다.

To preserve vital information, DiffFP deals with redundant and long video tokens by pruning frames with minimal differences as taken through a 1-norm distance between the patches. Dynamic resolution handling, in combination with efficient token reduction, improves the representation while reducing the costs.

중요한 정보를 보존하기 위해 DiffFP는 패치 간 1-norm 거리를 통해 얻은 차이를 최소화하면서 프레임을 잘라내어 중복되고 긴 비디오 토큰을 처리합니다. 효율적인 토큰 감소와 함께 동적 해결 처리는 비용을 줄이면서 표현을 향상시킵니다.

The model consists of a vision encoder, video compressor, projector, and large language model (LLM), initializing the vision encoder using a pre-trained SigLIP model. It extracts visual tokens, while the video compressor reduces video token representation. The projector connects the vision encoder to the LLM, and Qwen2.5 models are used for the LLM.

모델은 비전 인코더, 비디오 압축기, 프로젝터 및 LLM(대형 언어 모델)으로 구성되며 사전 학습된 SigLIP 모델을 사용하여 비전 인코더를 초기화합니다. 비디오 압축기는 비디오 토큰 표현을 줄이는 반면 시각적 토큰을 추출합니다. 프로젝터는 비전 인코더를 LLM에 연결하고 Qwen2.5 모델은 LLM에 사용됩니다.

Training occurs in four stages: Vision Encoder Adaptation, Vision-Language Alignment, Multi-task Fine-tuning, and Video-centric Fine-tuning. The first three stages focus on image understanding, and the final stage enhances video understanding by incorporating temporal information.

훈련은 비전 인코더 적응, 비전-언어 정렬, 다중 작업 미세 조정, 비디오 중심 미세 조정의 4단계로 진행됩니다. 처음 3단계는 이미지 이해에 초점을 맞추고, 마지막 단계에서는 시간적 정보를 접목해 영상 이해도를 높인다.

The Vision Encoder Adaptation Stage focuses on fine-tuning the vision encoder, initialized with SigLIP, on a large-scale image dataset, allowing it to process images at varying resolutions. The Vision-Language Alignment Stage introduces multimodal knowledge, making the LLM and the vision encoder trainable to integrate vision and language understanding.

비전 인코더 적응 단계는 SigLIP으로 초기화된 비전 인코더를 대규모 이미지 데이터 세트에서 미세 조정하여 다양한 해상도의 이미지를 처리하는 데 중점을 둡니다. 비전-언어 정렬 단계에서는 다중 모드 지식을 도입하여 비전과 언어 이해를 통합하도록 LLM과 비전 인코더를 훈련할 수 있습니다.

In the Multi-task Fine-tuning Stage, instruction fine-tuning is performed using multimodal question-answering data, including image and video questions, improving the model’s ability to follow natural language instructions and process temporal information. The Video-centric Fine-tuning Stage unfreezes all parameters to enhance the model’s video understanding capabilities.

다중 작업 미세 조정 단계에서는 이미지 및 비디오 질문을 포함한 다중 모달 질의 응답 데이터를 사용하여 명령 미세 조정을 수행하여 모델의 자연어 명령을 따르고 시간 정보를 처리하는 능력을 향상시킵니다. 비디오 중심의 미세 조정 단계는 모든 매개변수의 고정을 해제하여 모델의 비디오 이해 기능을 향상시킵니다.

The training data comes from diverse sources like scene images, documents, charts, fine-grained images, and video data, ensuring comprehensive multimodal understanding.

학습 데이터는 장면 이미지, 문서, 차트, 세분화된 이미지, 비디오 데이터 등 다양한 소스에서 제공되므로 포괄적인 다중 모드 이해가 보장됩니다.

Experiments were conducted to evaluate the performance of VideoLLaMA3 across image and video tasks. For image-based tasks, the model was tested on document understanding, mathematical reasoning, and multi-image understanding, where it outperformed previous models, showing improvements in chart understanding and real-world knowledge question answering (QA).

이미지 및 비디오 작업 전반에 걸쳐 VideoLLaMA3의 성능을 평가하기 위해 실험이 수행되었습니다. 이미지 기반 작업의 경우 문서 이해, 수학적 추론 및 다중 이미지 이해에 대한 테스트를 거쳤으며 이전 모델보다 성능이 뛰어나 차트 이해 및 실제 지식 QA(질의 응답)가 향상되었습니다.

In video-based tasks, VideoLLaMA3 performed strongly in benchmarks like VideoMME and MVBench, proving proficient in general video understanding, long-form video comprehension, and temporal reasoning. The 2B and 7B models performed very competitively, with the 7B model leading in most video tasks, which underlines the model’s effectiveness in multimodal tasks.

비디오 기반 작업에서 VideoLLaMA3는 VideoMME 및 MVBench와 같은 벤치마크에서 강력한 성능을 발휘하여 일반 비디오 이해, 긴 형식 비디오 이해 및 시간적 추론에 능숙함을 입증했습니다. 2B 및 ​​7B 모델은 매우 경쟁력 있는 성능을 발휘했으며 7B 모델은 대부분의 비디오 작업에서 선두를 차지했으며 이는 다중 모드 작업에서 모델의 효율성을 강조합니다.

Other areas where important improvements were reported were OCR, mathematical reasoning, multi-image understanding, and long-term video comprehension.

중요한 개선 사항이 보고된 다른 영역은 OCR, 수학적 추론, 다중 이미지 이해 및 장기 비디오 이해였습니다.

At last, the proposed framework advances vision-centric multimodal models, offering a strong framework for understanding images and videos. By utilizing high-quality image-text datasets it addresses video comprehension challenges and temporal dynamics, achieving strong results across benchmarks. However, challenges like video-text dataset quality and real-time processing remain.

마침내 제안된 프레임워크는 비전 중심의 다중 모드 모델을 발전시켜 이미지와 비디오를 이해하기 위한 강력한 프레임워크를 제공합니다. 고품질 이미지-텍스트 데이터 세트를 활용하여 비디오 이해 문제와 시간 역학을 해결하여 벤치마크 전반에 걸쳐 강력한 결과를 달성합니다. 그러나 비디오 텍스트 데이터 세트 품질 및 실시간 처리와 같은 과제는 여전히 남아 있습니다.

Future research can enhance video-text datasets, optimize for real-time performance, and integrate additional modalities like audio and speech. This work can serve as a baseline for future advancements in multimodal understanding, improving efficiency, generalization, and integration.

향후 연구에서는 비디오-텍스트 데이터 세트를 향상시키고 실시간 성능을 최적화하며 오디오 및 음성과 같은 추가 양식을 통합할 수 있습니다. 이 작업은 다중 모드 이해, 효율성 향상, 일반화 및 통합의 미래 발전을 위한 기준선 역할을 할 수 있습니다.

Check out the Paper and GitHub Page.

Paper 및 GitHub 페이지를 확인하세요.

All credit for this research goes to the researchers of this project. Also, don’t forget to follow us on Twitter and join our Telegram Channel and LinkedIn Group. Don’t Forget to join our 70k+ ML SubReddit.

이 연구에 대한 모든 공로는 이 프로젝트의 연구자에게 돌아갑니다. 또한 Twitter에서 우리를 팔로우하고 Telegram 채널과 LinkedIn 그룹에 가입하는 것을 잊지 마세요. 70,000개가 넘는 ML SubReddit에 가입하는 것을 잊지 마세요.

🚨 [Recommended Read] Nebius AI Studio expands with vision models, new language models, embeddings and LoRA (Promoted)

🚨 [추천 읽기] Nebius AI Studio는 비전 모델, 새로운 언어 모델, 임베딩 및 LoRA로 확장됩니다(홍보)

부인 성명:info@kdj.com

제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!

본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.

2025年04月12日 에 게재된 다른 기사