bitcoin
bitcoin

$94194.351350 USD

-0.38%

ethereum
ethereum

$3220.545782 USD

-1.82%

xrp
xrp

$2.509433 USD

-1.42%

tether
tether

$0.999457 USD

-0.01%

bnb
bnb

$682.273700 USD

-1.92%

solana
solana

$184.264600 USD

-1.40%

dogecoin
dogecoin

$0.331093 USD

-3.25%

usd-coin
usd-coin

$0.999929 USD

-0.01%

cardano
cardano

$0.951509 USD

-6.13%

tron
tron

$0.229131 USD

-4.65%

avalanche
avalanche

$35.412626 USD

-4.45%

sui
sui

$4.578316 USD

-6.33%

toncoin
toncoin

$5.184655 USD

-3.73%

stellar
stellar

$0.421681 USD

-4.06%

shiba-inu
shiba-inu

$0.000021 USD

-3.39%

Articles d’actualité sur les crypto-monnaies

Sa2VA : un modèle unifié pour une compréhension dense et fondée des images et des vidéos

Jan 13, 2025 at 03:31 am

Des chercheurs de l'UC Merced, de Bytedance Seed, de l'Université de Wuhan et de l'Université de Pékin ont proposé Sa2VA, un modèle unifié révolutionnaire conçu pour une compréhension approfondie des images et des vidéos.

Sa2VA : un modèle unifié pour une compréhension dense et fondée des images et des vidéos

Multi-Modal Large Language Models (MLLMs) have seen rapid advancements in handling various image and video-related tasks, including visual question answering, narrative generation, and interactive editing. However, achieving fine-grained video content understanding, such as pixel-level segmentation, tracking with language descriptions, and performing visual question answering on specific video prompts, still poses a critical challenge in this field. State-of-the-art video perception models excel at tasks like segmentation and tracking but lack open-ended language understanding and conversation capabilities. At the same time, video MLLMs demonstrate strong performance in video comprehension and question answering but fall short in handling perception tasks and visual prompts.

Les modèles multimodaux de langage étendu (MLLM) ont connu des progrès rapides dans la gestion de diverses tâches liées aux images et aux vidéos, notamment la réponse visuelle aux questions, la génération narrative et l'édition interactive. Cependant, parvenir à une compréhension fine du contenu vidéo, telle que la segmentation au niveau des pixels, le suivi avec des descriptions linguistiques et la réponse visuelle aux questions sur des invites vidéo spécifiques, pose toujours un défi crucial dans ce domaine. Les modèles de perception vidéo de pointe excellent dans des tâches telles que la segmentation et le suivi, mais manquent de capacités ouvertes de compréhension du langage et de conversation. Dans le même temps, les MLLM vidéo démontrent de solides performances en matière de compréhension vidéo et de réponse aux questions, mais ne parviennent pas à gérer les tâches de perception et les invites visuelles.

Existing attempts to address video understanding challenges have followed two main approaches: MLLMs and Referring Segmentation systems. Initially, MLLMs focused on developing improved multi-modal fusion methods and feature extractors, eventually evolving towards instruction tuning on LLMs with frameworks like LLaVA. Recent developments have attempted to unify image, video, and multi-image analysis in single frameworks, such as LLaVA-OneVision. In parallel, Referring Segmentation systems have progressed from basic fusion modules to transformer-based methods that integrate segmentation and tracking within videos. However, these solutions lack a comprehensive integration of perception and language understanding capabilities.

Les tentatives existantes pour résoudre les problèmes de compréhension vidéo ont suivi deux approches principales : les MLLM et les systèmes de segmentation référente. Initialement, les MLLM se sont concentrés sur le développement de méthodes de fusion multimodales améliorées et d'extracteurs de fonctionnalités, pour finalement évoluer vers le réglage des instructions sur les LLM avec des frameworks comme LLaVA. Des développements récents ont tenté d'unifier l'analyse d'images, de vidéos et de plusieurs images dans des cadres uniques, tels que LLaVA-OneVision. En parallèle, les systèmes de segmentation référente ont évolué depuis des modules de fusion de base vers des méthodes basées sur des transformateurs qui intègrent la segmentation et le suivi dans les vidéos. Cependant, ces solutions manquent d’une intégration complète des capacités de perception et de compréhension du langage.

To overcome this limitation, researchers from UC Merced, Bytedance Seed, Wuhan University, and Peking University have proposed Sa2VA, a groundbreaking unified model for a dense grounded understanding of images and videos. The model differentiates itself by supporting a comprehensive range of image and video tasks through minimal one-shot instruction tuning, addressing the limitations of existing multi-modal large language models. Sa2VA’s innovative approach integrates SAM-2 with LLaVA, unifying text, image, and video in a shared LLM token space. The researchers have also introduced Ref-SAV, an extensive auto-labeled dataset containing over 72K object expressions in complex video scenes, with 2K manually validated video objects to ensure robust benchmarking capabilities.

Pour surmonter cette limitation, des chercheurs de l'UC Merced, de Bytedance Seed, de l'Université de Wuhan et de l'Université de Pékin ont proposé Sa2VA, un modèle unifié révolutionnaire pour une compréhension dense et fondée des images et des vidéos. Le modèle se différencie en prenant en charge une gamme complète de tâches d'image et de vidéo grâce à un réglage minimal des instructions en une seule fois, répondant ainsi aux limites des modèles de langage multimodaux existants. L'approche innovante de Sa2VA intègre SAM-2 à LLaVA, unifiant le texte, l'image et la vidéo dans un espace de jetons LLM partagé. Les chercheurs ont également introduit Ref-SAV, un vaste ensemble de données auto-étiquetées contenant plus de 72 000 expressions d'objets dans des scènes vidéo complexes, avec 2 000 objets vidéo validés manuellement pour garantir de solides capacités d'analyse comparative.

Sa2VA’s architecture integrates two main components: a LLaVA-like model and SAM-2, connected through a novel decoupled design. The LLaVA-like component consists of a visual encoder processing images and videos, a visual projection layer, and an LLM for text token prediction. The system employs a unique decoupled approach where SAM-2 operates alongside the pre-trained LLaVA model without direct token exchange, maintaining computational efficiency and enabling plug-and-play functionality with various pre-trained MLLMs. The key innovation lies in the connection mechanism using a special “[SEG]” token, allowing SAM-2 to generate segmentation masks while enabling gradient backpropagation through the “[SEG]” token to optimize the MLLM’s prompt generation capabilities.

L'architecture de Sa2VA intègre deux composants principaux : un modèle de type LLaVA et SAM-2, connectés via une nouvelle conception découplée. Le composant de type LLaVA se compose d'un encodeur visuel traitant des images et des vidéos, d'une couche de projection visuelle et d'un LLM pour la prédiction de jetons de texte. Le système utilise une approche découplée unique dans laquelle SAM-2 fonctionne parallèlement au modèle LLaVA pré-entraîné sans échange direct de jetons, maintenant l'efficacité informatique et permettant une fonctionnalité plug-and-play avec divers MLLM pré-entraînés. L'innovation clé réside dans le mécanisme de connexion utilisant un jeton spécial « [SEG] », permettant à SAM-2 de générer des masques de segmentation tout en permettant la rétropropagation du gradient via le jeton « [SEG] » pour optimiser les capacités de génération d'invite du MLLM.

The Sa2VA model achieves state-of-the-art results on referring segmentation tasks, with Sa2VA-8B scoring 81.6, 76.2, and 78.9 cIoU on RefCOCO, RefCOCO+, and RefCOCOg respectively, outperforming previous systems like GLaMM-7B. In conversational capabilities, Sa2VA shows strong performance with scores of 2128 on MME, 81.6 on MMbench, and 75.1 on SEED-Bench. The model excels in video benchmarks, surpassing previous state-of-the-art VISA-13B by substantial margins on MeVIS, RefDAVIS17, and ReVOS. Moreover, Sa2VA’s performance is noteworthy considering its smaller model size compared to competitors, showing its efficiency and effectiveness across both image and video understanding tasks.

Le modèle Sa2VA obtient des résultats de pointe sur les tâches de segmentation de référence, avec Sa2VA-8B obtenant respectivement 81,6, 76,2 et 78,9 cIoU sur RefCOCO, RefCOCO+ et RefCOCOg, surpassant les systèmes précédents comme GLaMM-7B. En termes de capacités conversationnelles, Sa2VA affiche de solides performances avec des scores de 2 128 sur MME, 81,6 sur MMbench et 75,1 sur SEED-Bench. Le modèle excelle dans les benchmarks vidéo, surpassant le précédent VISA-13B de pointe par des marges substantielles sur MeVIS, RefDAVIS17 et ReVOS. De plus, les performances de Sa2VA sont remarquables compte tenu de la taille de son modèle plus petite par rapport à ses concurrents, démontrant son efficience et son efficacité dans les tâches de compréhension d'images et de vidéos.

In this paper, researchers introduced Sa2VA which represents a significant advancement in multi-modal understanding by successfully integrating SAM-2’s video segmentation capabilities with LLaVA’s language processing abilities. The framework's versatility is shown through its ability to handle diverse image and video understanding tasks with minimal one-shot instruction tuning, addressing the long-standing challenge of combining perception and language understanding. Sa2VA’s strong performance across multiple benchmarks, from referring segmentation to conversational tasks, validates its effectiveness as a unified solution for a dense, grounded understanding of visual content, marking a significant step forward in the multi-modal AI systems field.

Dans cet article, les chercheurs ont présenté Sa2VA, qui représente une avancée significative dans la compréhension multimodale en intégrant avec succès les capacités de segmentation vidéo de SAM-2 aux capacités de traitement linguistique de LLaVA. La polyvalence du framework se manifeste par sa capacité à gérer diverses tâches de compréhension d'images et de vidéos avec un minimum de réglages d'instructions ponctuelles, relevant ainsi le défi de longue date consistant à combiner la perception et la compréhension du langage. Les solides performances de Sa2VA sur plusieurs critères, de la segmentation référente aux tâches conversationnelles, valident son efficacité en tant que solution unifiée pour une compréhension dense et fondée du contenu visuel, marquant une avancée significative dans le domaine des systèmes d'IA multimodaux.

Check out the Paper and Model on Hugging Face. All credit for this research goes to the researchers of this project. Also, don’t forget to follow us on Twitter and join our Telegram Channel and LinkedIn Group. Don’t Forget to join our 65k+ ML SubReddit.

Consultez le document et le modèle sur Hugging Face. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de nous suivre sur Twitter et de rejoindre notre chaîne Telegram et notre groupe LinkedIn. N'oubliez pas de rejoindre notre SubReddit de plus de 65 000 ML.

FREE UPCOMING AI WEBINAR (JAN 15, 2025): Boost LLM Accuracy with Synthetic Data and Evaluation Intelligence

WEBINAIRE GRATUIT À VENIR SUR L'IA (15 JANVIER 2025) : Améliorez la précision du LLM grâce aux données synthétiques et à l'intelligence d'évaluation

Join this webinar to gain actionable insights into boosting LLM model performance and accuracy while safeguarding data privacy.output

Rejoignez ce webinaire pour obtenir des informations exploitables sur l'amélioration des performances et de la précision des modèles LLM tout en protégeant la confidentialité des données.

Source de nouvelles:www.marktechpost.com

Clause de non-responsabilité:info@kdj.com

The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!

If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.

Autres articles publiés sur Jan 13, 2025