|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
AI 비디오 생성은 일반적으로 대규모 시공간 공간을 모델링하는 계산 집약적 작업입니다. 전통적인 방법에는 종종
A new AI video generation model, Pyramid Flow, was released this week, offering high-quality video clips up to 10 seconds in length — quickly, and all open source.
새로운 AI 비디오 생성 모델인 Pyramid Flow가 이번 주에 출시되어 최대 10초 길이의 고품질 비디오 클립을 신속하게 모두 오픈 소스로 제공합니다.
Developed by a collaboration of researchers from Peking University, Beijing University of Posts and Telecommunications, and Kuaishou Technology — the latter the creator of the well-reviewed proprietary Kling AI video generator — Pyramid Flow leverages a new technique wherein a single AI model generates video in stages, most of them low resolution, saving only a full-res version for the end of its generation process.
Peking University, Beijing University of Posts and Telecommunications 및 Kuaishou Technology(잘 평가된 독점 Kling AI 비디오 생성기의 창시자)의 연구원이 공동으로 개발한 Pyramid Flow는 단일 AI 모델이 비디오를 생성하는 새로운 기술을 활용합니다. 대부분은 저해상도이므로 생성 프로세스가 끝날 때까지 전체 해상도 버전만 저장합니다.
It’s available as raw code for download on Hugging Face and Github, and can be run in an inference shell here but requires the user to download and run the model code on their own machine.
Hugging Face 및 Github에서 다운로드할 수 있는 원시 코드로 제공되며 여기에서는 추론 셸에서 실행할 수 있지만 사용자가 자신의 컴퓨터에서 모델 코드를 다운로드하고 실행해야 합니다.
At inference, the model can generate a 5-second, 384p video in just 56 seconds—on par with or faster than many full-sequence diffusion counterparts — though Runway’s Gen 3-Alpha Turbo still takes cake in terms of speed of AI video generation, coming in at under one minute and often times 10-20 seconds in our tests.
추론에 따르면 이 모델은 단 56초 만에 5초, 384p 비디오를 생성할 수 있습니다. 이는 많은 전체 시퀀스 확산 제품과 동등하거나 그보다 빠릅니다. 하지만 Runway의 Gen 3-Alpha Turbo는 여전히 AI 비디오 생성 속도 측면에서 최고 수준입니다. , 테스트에서는 1분 미만이 소요되며 종종 10~20초가 소요됩니다.
We haven’t had a chance to test Pyramid Flow yet, but the videos posted by the model creators appear to be incredibly lifelike, high enough resolution, and compelling — analogous to those of proprietary offerings. You can see various examples here on its Github project page.
아직 Pyramid Flow를 테스트할 기회는 없었지만 모델 제작자가 게시한 비디오는 독점 제품과 유사하게 믿을 수 없을 정도로 실물과 같고 해상도가 높으며 매력적으로 보입니다. Github 프로젝트 페이지에서 다양한 예제를 볼 수 있습니다.
Indeed, Pyramid Flow is available designed now to download and use — even for commercial/enterprise purposes — and is designed to compete directly with paid proprietary offerings such as Runway’s Gen-3 Alpha, Luma’s Dream Machine, Kling, and Haulio, which can cost hundreds of even thousands of dollars a year for users on unlimited generation subscriptions.
실제로 Pyramid Flow는 이제 상업적/기업적 목적으로도 다운로드하여 사용할 수 있도록 설계되었으며 Runway의 Gen-3 Alpha, Luma의 Dream Machine, Kling 및 Haulio와 같은 유료 독점 제품과 직접 경쟁하도록 설계되었습니다. 무제한 세대 구독 사용자의 경우 연간 수십만 달러에 달합니다.
As the race between various AI video providers to gain users continues, Pyramid Flow aims to bring more efficiency and flexibility to developers, artists, and creators seeking advanced video generation capabilities.
사용자를 확보하기 위한 다양한 AI 비디오 제공업체 간의 경쟁이 계속됨에 따라 Pyramid Flow는 고급 비디오 생성 기능을 원하는 개발자, 아티스트 및 제작자에게 더 많은 효율성과 유연성을 제공하는 것을 목표로 합니다.
A new technique for high-quality AI videos: ‘pyramidal flow matching’
고품질 AI 영상을 위한 새로운 기술: '피라미드 흐름 매칭'
AI video generation is a computationally intensive task that typically involves modeling large spatiotemporal spaces. Traditional methods often require separate models for different stages of the process, which limits flexibility and increases the complexity of training.
AI 비디오 생성은 일반적으로 대규모 시공간 공간을 모델링하는 계산 집약적 작업입니다. 기존 방법에서는 프로세스의 여러 단계에 대해 별도의 모델이 필요한 경우가 많아 유연성이 제한되고 교육의 복잡성이 증가합니다.
Pyramid Flow is built on the concept of pyramidal flow matching, a method that drastically cuts down the computational cost of video generation while maintaining high visual quality, completing the video generation process as a series of “pyramid” stages, with only the final stage operating at full resolution.
피라미드 플로우(Pyramid Flow)는 높은 시각적 품질을 유지하면서 비디오 생성의 계산 비용을 획기적으로 줄이는 방법인 피라미드 흐름 매칭 개념을 기반으로 구축되었으며, 비디오 생성 프로세스를 일련의 "피라미드" 단계로 완료하고 마지막 단계만 작동합니다. 전체 해상도로.
It’s described in a pre-reviewed paper, “Pyramidal Flow Matching for Efficient Video Generative Modeling,” submitted to open access science journal arXiv on October 8, 2024.
이는 2024년 10월 8일 오픈 액세스 과학 저널 arXiv에 제출된 사전 검토 논문 "효율적인 비디오 생성 모델링을 위한 피라미드 흐름 매칭"에 설명되어 있습니다.
The authors include Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu, and Zhouchen Lin. Most of these researchers are affiliated with Peking University, while others are from Kuaishou Technology.
저자에는 Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu 및 Zhouchen Lin이 포함됩니다. 이들 연구자 중 대부분은 Peking University 소속이고 나머지는 Kuaishou Technology 출신입니다. .
As they write, the ability to compress and optimize video generation at different stages leads to faster convergence during training, allowing Pyramid Flow to generate more samples per training batch.
작성하는 동안 다양한 단계에서 비디오 생성을 압축하고 최적화하는 기능을 통해 훈련 중에 수렴이 더 빨라지고 Pyramid Flow가 훈련 배치당 더 많은 샘플을 생성할 수 있습니다.
For example, the proposed pyramidal flow reduces the token count by a factor of four compared to traditional diffusion models, which results in more efficient training.
예를 들어, 제안된 피라미드 흐름은 기존 확산 모델에 비해 토큰 수를 4배 줄여 더욱 효율적인 교육을 제공합니다.
The model can produce 5- to 10-second videos at 768p resolution and 24 frames per second, all while being trained on open-source datasets. Specifically, the paper states that Pyramid Flow was trained on trained on:
이 모델은 768p 해상도, 초당 24프레임으로 5~10초 길이의 비디오를 생성하는 동시에 오픈 소스 데이터 세트에 대한 교육을 받을 수 있습니다. 특히, 이 논문에서는 Pyramid Flow가 다음과 같은 훈련을 받았다고 명시합니다.
In total, the authors curated approximately 10 million single-shot videos.
전체적으로 저자는 약 1천만 개의 싱글샷 비디오를 선별했습니다.
However, many of these “public” or “open source” datasets have in recent years come under fire from critics for including copyrighted material without permission or informed consent of the copyright holders, and LAION-5B in particular accused of hosting child sexual abuse material.
그러나 이러한 "공개" 또는 "오픈 소스" 데이터 세트 중 다수는 최근 몇 년 동안 저작권 소유자의 허가나 고지된 동의 없이 저작권이 있는 자료를 포함했다는 이유로 비평가들로부터 비난을 받았으며, 특히 LAION-5B는 아동 성적 학대 자료를 호스팅했다는 비난을 받았습니다. .
Separately, Runway is among the companies being sued by artists in a class action lawsuit for training on materials without permission, compensation, or consent — allegedly in violation of U.S. copyright. The case remains being argued in court, for now.
이와 별도로 Runway는 허가, 보상 또는 동의 없이 자료를 교육했다는 이유로 예술가들이 집단 소송을 제기한 회사 중 하나입니다. 이는 미국 저작권을 위반한 것으로 추정됩니다. 이 사건은 현재 법정에서 계속 논쟁 중이다.
Permissively licensed, open source for commercial usage
상업적 사용을 위한 허가된 오픈 소스
Pyramid Flow is released under the MIT License, allowing for a wide range of uses, including commercial applications, modifications, and redistribution, provided the copyright notice is preserved.
Pyramid Flow는 MIT 라이센스에 따라 출시되므로 저작권 표시가 유지되는 경우 상업적 응용, 수정 및 재배포를 포함한 광범위한 사용이 허용됩니다.
This makes Pyramid Flow an attractive option for developers and companies looking to integrate the model into proprietary systems, and could challenge Luma AI and Runway as both look to offer paid application programming interfaces for developers seeking to integrate their proprietary AI video generation technology into customer or employee-facing apps.
이로 인해 Pyramid Flow는 모델을 독점 시스템에 통합하려는 개발자와 회사에게 매력적인 옵션이 되며, 독점 AI 비디오 생성 기술을 고객 또는 고객에게 통합하려는 개발자에게 유료 애플리케이션 프로그래밍 인터페이스를 제공하려는 Luma AI 및 Runway에 도전할 수 있습니다. 직원용 앱.
Yet those proprietary models already exist as inferences suitable for developers, while Pyramid Flow has a demo inference on Hugging Face, it is not suitable for building full applications atop it and users would need to host their own version of an inference, which
그러나 이러한 독점 모델은 이미 개발자에게 적합한 추론으로 존재하지만 Pyramid Flow에는 Hugging Face에 대한 데모 추론이 있지만 그 위에 전체 애플리케이션을 구축하는 데는 적합하지 않으며 사용자는 자신만의 추론 버전을 호스팅해야 합니다.
부인 성명:info@kdj.com
제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!
본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.