|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Southern California 대학, Prime Intellect 및 Nucleic Acid Observatory의 연구원들은 메타게놈 기초 모델인 METAGENE-1을 도입했습니다. 이 70억 매개변수 자동회귀 변환기 모델은 메타게놈 시퀀스를 분석하도록 특별히 설계되었습니다.
With emerging pandemics posing persistent threats to global health, the need for advanced biosurveillance and pathogen detection systems is becoming increasingly evident. Traditional genomic analysis methods, while effective in isolated cases, often encounter challenges in addressing the complexities of large-scale health monitoring. A significant difficulty lies in identifying and understanding the genomic diversity in environments such as wastewater, which contains a rich mix of microbial and viral DNA and RNA. In this context, the rapid advancements in biological research are highlighting the importance of scalable, accurate, and interpretable models to analyze vast amounts of metagenomic data, aiding in the prediction and mitigation of health crises.
새로운 전염병이 세계 보건에 지속적인 위협을 가하면서 고급 생물 감시 및 병원체 탐지 시스템의 필요성이 점점 더 분명해지고 있습니다. 전통적인 게놈 분석 방법은 개별적인 경우에는 효과적이지만 대규모 건강 모니터링의 복잡성을 해결하는 데 종종 어려움을 겪습니다. 미생물 및 바이러스 DNA와 RNA가 풍부하게 혼합되어 있는 폐수와 같은 환경에서 게놈 다양성을 식별하고 이해하는 데는 상당한 어려움이 있습니다. 이러한 맥락에서 생물학 연구의 급속한 발전은 방대한 양의 메타게놈 데이터를 분석하여 건강 위기의 예측 및 완화를 지원하는 확장 가능하고 정확하며 해석 가능한 모델의 중요성을 강조하고 있습니다.
Now, a team of researchers from the University of Southern California, Prime Intellect, and the Nucleic Acid Observatory have introduced METAGENE-1, a metagenomic foundation model. This 7-billion-parameter autoregressive transformer model is specifically designed to analyze metagenomic sequences. METAGENE-1 is trained on a dataset comprising over 1.5 trillion DNA and RNA base pairs derived from human wastewater samples, utilizing next-generation sequencing technologies and a tailored byte-pair encoding (BPE) tokenization strategy to capture the intricate genomic diversity present in these datasets. The model is open-sourced, encouraging collaboration and further advancements in the field.
이제 University of Southern California, Prime Intellect 및 Nucleic Acid Observatory의 연구진이 메타게놈 기반 모델인 METAGENE-1을 도입했습니다. 이 70억 매개변수 자동회귀 변환기 모델은 메타게놈 시퀀스를 분석하도록 특별히 설계되었습니다. METAGENE-1은 차세대 시퀀싱 기술과 맞춤형 BPE(바이트 쌍 인코딩) 토큰화 전략을 활용하여 인간 폐수 샘플에서 추출한 1조 5천억 개 이상의 DNA 및 RNA 염기쌍으로 구성된 데이터 세트에 대해 교육을 받아 이러한 폐수 샘플에 존재하는 복잡한 게놈 다양성을 포착합니다. 데이터 세트. 이 모델은 오픈 소스이므로 해당 분야의 협업과 추가 발전을 장려합니다.
Technical Highlights and BenefitsMETAGENE-1’s architecture draws on modern transformer models, including GPT and Llama families. This decoder-only transformer uses a causal language modeling objective to predict the next token in a sequence based on preceding tokens. Its key features include:
기술적 하이라이트 및 이점METAGENE-1의 아키텍처는 GPT 및 Llama 제품군을 포함한 최신 변압기 모델을 활용합니다. 이 디코더 전용 변환기는 인과 언어 모델링 목표를 사용하여 이전 토큰을 기반으로 시퀀스의 다음 토큰을 예측합니다. 주요 기능은 다음과 같습니다.
A decoder-only transformer architecture with 7 billion parameters.
70억 개의 매개변수를 갖춘 디코더 전용 변환기 아키텍처입니다.
Trained on a vast dataset of over 1.5 trillion DNA and RNA base pairs from human wastewater samples.
인간의 폐수 샘플에서 추출한 1조 5천억 개가 넘는 DNA 및 RNA 염기쌍으로 구성된 방대한 데이터 세트에 대한 교육을 받았습니다.
Employs a BPE tokenization strategy tailored to metagenomic sequences.
메타게놈 서열에 맞춘 BPE 토큰화 전략을 사용합니다.
These features enable METAGENE-1 to generate high-quality sequence embeddings and adapt to specific tasks, enhancing its utility in the genomic and public health domains.
이러한 기능을 통해 METAGENE-1은 고품질 시퀀스 임베딩을 생성하고 특정 작업에 적응하여 게놈 및 공중 보건 영역에서의 유용성을 향상시킬 수 있습니다.
Results and InsightsThe capabilities of METAGENE-1 were assessed using multiple benchmarks, where it demonstrated notable performance. In a pathogen detection benchmark based on human wastewater samples, the model achieved an average Matthews correlation coefficient (MCC) of 92.96, significantly outperforming other models. Additionally, METAGENE-1 showed strong results in anomaly detection tasks, effectively distinguishing metagenomic sequences from other genomic data sources.
결과 및 통찰력METAGENE-1의 기능은 여러 벤치마크를 사용하여 평가되었으며, 여기서 주목할만한 성능이 입증되었습니다. 인간 폐수 샘플을 기반으로 한 병원체 탐지 벤치마크에서 이 모델은 평균 92.96의 매튜스 상관 계수(MCC)를 달성하여 다른 모델보다 훨씬 뛰어난 성능을 보였습니다. 또한 METAGENE-1은 이상 탐지 작업에서 강력한 결과를 보여 메타게놈 서열을 다른 게놈 데이터 소스와 효과적으로 구별했습니다.
In embedding-based genomic analyses, METAGENE-1 excelled on the Gene-MTEB benchmark, achieving a global average score of 0.59. This performance underscores its adaptability in both zero-shot and fine-tuning scenarios, reinforcing its value in handling complex and diverse metagenomic data.
임베딩 기반 게놈 분석에서 METAGENE-1은 Gene-MTEB 벤치마크에서 탁월한 성능을 발휘하여 글로벌 평균 점수 0.59를 달성했습니다. 이 성능은 제로 샷 및 미세 조정 시나리오 모두에서 적응성을 강조하여 복잡하고 다양한 메타게놈 데이터 처리에 대한 가치를 강화합니다.
ConclusionMETAGENE-1 represents a thoughtful integration of artificial intelligence and metagenomics. By leveraging transformer architectures, the model offers practical solutions for biosurveillance and pandemic preparedness. Its open-source release invites researchers to collaborate and innovate, advancing the field of genomic science. As challenges related to emerging pathogens and global pandemics continue, METAGENE-1 demonstrates how technology can play a crucial role in addressing public health concerns effectively and responsibly.
결론METAGENE-1은 인공 지능과 메타게놈학의 사려 깊은 통합을 나타냅니다. 이 모델은 변압기 아키텍처를 활용하여 생물 감시 및 전염병 대비를 위한 실용적인 솔루션을 제공합니다. 오픈 소스 릴리스를 통해 연구자들이 협력하고 혁신하여 게놈 과학 분야를 발전시킬 수 있습니다. 새로운 병원체 및 세계적 유행병과 관련된 문제가 계속됨에 따라 METAGENE-1은 공중 보건 문제를 효과적이고 책임감 있게 해결하는 데 기술이 어떻게 중요한 역할을 할 수 있는지 보여줍니다.
Check out the Paper, Website, GitHub Page, and Model on Hugging Face. All credit for this research goes to the researchers of this project. Also, don’t forget to follow us on Twitter and join our Telegram Channel and LinkedIn Group. Don’t Forget to join our 60k+ ML SubReddit.
논문, 웹사이트, GitHub 페이지, Hugging Face 모델을 확인해 보세요. 이 연구에 대한 모든 공로는 이 프로젝트의 연구자에게 돌아갑니다. 또한 Twitter에서 우리를 팔로우하고 Telegram 채널과 LinkedIn 그룹에 가입하는 것을 잊지 마세요. 60,000개가 넘는 ML SubReddit에 가입하는 것을 잊지 마세요.
FREE UPCOMING AI WEBINAR (JAN 15, 2025): Boost LLM Accuracy with Synthetic Data and Evaluation Intelligence
무료 예정된 AI 웹 세미나(2025년 1월 15일): 합성 데이터 및 평가 인텔리전스로 LLM 정확도 향상
부인 성명:info@kdj.com
The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!
If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.
-
- r 일반 사용자의 행동에서.
- 2025-01-08 15:05:21
- 업 프로모션 채널