|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
AI ビデオの生成は、通常、大規模な時空間のモデリングを伴う、計算集約型のタスクです。従来の方法では多くの場合、
A new AI video generation model, Pyramid Flow, was released this week, offering high-quality video clips up to 10 seconds in length — quickly, and all open source.
新しい AI ビデオ生成モデルである Pyramid Flow が今週リリースされ、最大 10 秒の長さの高品質ビデオ クリップを迅速に、すべてオープンソースで提供します。
Developed by a collaboration of researchers from Peking University, Beijing University of Posts and Telecommunications, and Kuaishou Technology — the latter the creator of the well-reviewed proprietary Kling AI video generator — Pyramid Flow leverages a new technique wherein a single AI model generates video in stages, most of them low resolution, saving only a full-res version for the end of its generation process.
北京大学、北京郵電大学、Kuaishou Technology (後者は評判の高い独自の Kling AI ビデオ ジェネレーターの作成者) の研究者の共同開発によって開発された Pyramid Flow は、単一の AI モデルがビデオを生成する新しい技術を活用しています。ステージのほとんどは低解像度であり、生成プロセスの最後に備えてフル解像度バージョンのみが保存されます。
It’s available as raw code for download on Hugging Face and Github, and can be run in an inference shell here but requires the user to download and run the model code on their own machine.
これは生のコードとして Hugging Face および Github でダウンロードでき、ここで推論シェルで実行できますが、ユーザーはモデル コードをダウンロードして自分のマシンで実行する必要があります。
At inference, the model can generate a 5-second, 384p video in just 56 seconds—on par with or faster than many full-sequence diffusion counterparts — though Runway’s Gen 3-Alpha Turbo still takes cake in terms of speed of AI video generation, coming in at under one minute and often times 10-20 seconds in our tests.
推論では、このモデルは 5 秒の 384p ビデオをわずか 56 秒で生成できます。これは多くのフルシーケンス拡散モデルと同等かそれよりも速いですが、AI ビデオの生成速度という点では、Runway の第 3 世代アルファ ターボの方がまだ簡単ではありません。 、私たちのテストでは1分未満で得られ、多くの場合10〜20秒かかります。
We haven’t had a chance to test Pyramid Flow yet, but the videos posted by the model creators appear to be incredibly lifelike, high enough resolution, and compelling — analogous to those of proprietary offerings. You can see various examples here on its Github project page.
私たちはまだ Pyramid Flow をテストする機会がありませんが、モデルの作成者によって投稿されたビデオは信じられないほど実物そっくりで、十分な解像度があり、魅力的であるように見えます。プロプライエタリな製品と同様です。 Github プロジェクト ページでさまざまな例を確認できます。
Indeed, Pyramid Flow is available designed now to download and use — even for commercial/enterprise purposes — and is designed to compete directly with paid proprietary offerings such as Runway’s Gen-3 Alpha, Luma’s Dream Machine, Kling, and Haulio, which can cost hundreds of even thousands of dollars a year for users on unlimited generation subscriptions.
実際、Pyramid Flow は、商業/エンタープライズ目的であってもダウンロードして使用できるように設計されており、Runway の Gen-3 Alpha、Luma の Dream Machine、Kling、Haulio などの有料の独自製品と直接競合するように設計されており、コストがかかる可能性があります。無制限の世代サブスクリプションを契約しているユーザーには、年間数百ドル、場合によっては数千ドルがかかります。
As the race between various AI video providers to gain users continues, Pyramid Flow aims to bring more efficiency and flexibility to developers, artists, and creators seeking advanced video generation capabilities.
ユーザーを獲得するためのさまざまな AI ビデオ プロバイダー間の競争が続く中、Pyramid Flow は、高度なビデオ生成機能を求める開発者、アーティスト、クリエイターにさらなる効率と柔軟性をもたらすことを目指しています。
A new technique for high-quality AI videos: ‘pyramidal flow matching’
AI動画を高画質化する新手法「ピラミッドフローマッチング」
AI video generation is a computationally intensive task that typically involves modeling large spatiotemporal spaces. Traditional methods often require separate models for different stages of the process, which limits flexibility and increases the complexity of training.
AI ビデオの生成は、通常、大規模な時空間のモデリングを伴う、計算集約型のタスクです。従来の方法では、プロセスのさまざまな段階に個別のモデルが必要になることが多く、柔軟性が制限され、トレーニングが複雑になります。
Pyramid Flow is built on the concept of pyramidal flow matching, a method that drastically cuts down the computational cost of video generation while maintaining high visual quality, completing the video generation process as a series of “pyramid” stages, with only the final stage operating at full resolution.
ピラミッド フローは、高いビジュアル品質を維持しながらビデオ生成の計算コストを大幅に削減する方法であるピラミッド フロー マッチングの概念に基づいて構築されており、ビデオ生成プロセスを一連の「ピラミッド」ステージとして完了し、最終ステージのみが動作します。フル解像度で。
It’s described in a pre-reviewed paper, “Pyramidal Flow Matching for Efficient Video Generative Modeling,” submitted to open access science journal arXiv on October 8, 2024.
これについては、2024 年 10 月 8 日にオープンアクセス科学ジャーナル arXiv に投稿された査読済み論文「効率的なビデオ生成モデリングのためのピラミッド フロー マッチング」で説明されています。
The authors include Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu, and Zhouchen Lin. Most of these researchers are affiliated with Peking University, while others are from Kuaishou Technology.
著者には、Yang Jin、Zhicheng Sun、Ningyuan Li、Kun Xu、Hao Jiang、Nan Zhuang、Quzhe Huang、Yang Song、Yadong Mu、Zhouchen Lin が含まれます。これらの研究者のほとんどは北京大学に所属していますが、Kuaishou Technology の研究者もいます。 。
As they write, the ability to compress and optimize video generation at different stages leads to faster convergence during training, allowing Pyramid Flow to generate more samples per training batch.
彼らが書いているように、さまざまな段階でビデオ生成を圧縮して最適化できる機能により、トレーニング中の収束が速くなり、Pyramid Flow がトレーニング バッチごとにより多くのサンプルを生成できるようになります。
For example, the proposed pyramidal flow reduces the token count by a factor of four compared to traditional diffusion models, which results in more efficient training.
たとえば、提案されたピラミッド型フローでは、従来の拡散モデルと比較してトークン数が 4 分の 1 に減少し、その結果、トレーニングがより効率的になります。
The model can produce 5- to 10-second videos at 768p resolution and 24 frames per second, all while being trained on open-source datasets. Specifically, the paper states that Pyramid Flow was trained on trained on:
このモデルは、オープンソース データセットでトレーニングしながら、解像度 768p、毎秒 24 フレームで 5 ~ 10 秒のビデオを生成できます。具体的には、論文では、Pyramid Flow が次の条件でトレーニングされたと述べています。
In total, the authors curated approximately 10 million single-shot videos.
著者らは合計で約 1,000 万本の単発ビデオを厳選しました。
However, many of these “public” or “open source” datasets have in recent years come under fire from critics for including copyrighted material without permission or informed consent of the copyright holders, and LAION-5B in particular accused of hosting child sexual abuse material.
しかし、これらの「公開」または「オープンソース」データセットの多くは近年、著作権所有者の許可やインフォームドコンセントなしに著作権で保護された素材を含めているとして批評家から非難されており、特に LAION-5B は児童性的虐待素材をホスティングしているとして非難されています。 。
Separately, Runway is among the companies being sued by artists in a class action lawsuit for training on materials without permission, compensation, or consent — allegedly in violation of U.S. copyright. The case remains being argued in court, for now.
これとは別に、ランウェイは、米国の著作権を侵害しているとして、許可、補償、同意なしに素材を使ってトレーニングしたとしてアーティストらから集団訴訟を起こされている企業の一つである。この事件は今のところ法廷で争われ続けている。
Permissively licensed, open source for commercial usage
許可されたライセンスを取得し、商用利用が可能なオープンソース
Pyramid Flow is released under the MIT License, allowing for a wide range of uses, including commercial applications, modifications, and redistribution, provided the copyright notice is preserved.
Pyramid Flow は MIT ライセンスに基づいてリリースされており、著作権表示が保存されている限り、商用アプリケーション、修正、再配布を含む幅広い使用が許可されています。
This makes Pyramid Flow an attractive option for developers and companies looking to integrate the model into proprietary systems, and could challenge Luma AI and Runway as both look to offer paid application programming interfaces for developers seeking to integrate their proprietary AI video generation technology into customer or employee-facing apps.
これにより、Pyramid Flow は、モデルを独自のシステムに統合しようとしている開発者や企業にとって魅力的なオプションとなり、独自の AI ビデオ生成テクノロジーを顧客や企業に統合しようとしている開発者に有料のアプリケーション プログラミング インターフェイスを提供しようとしている Luma AI と Runway に対抗する可能性があります。従業員向けアプリ。
Yet those proprietary models already exist as inferences suitable for developers, while Pyramid Flow has a demo inference on Hugging Face, it is not suitable for building full applications atop it and users would need to host their own version of an inference, which
しかし、これらの独自モデルは開発者に適した推論としてすでに存在していますが、Pyramid Flow には Hugging Face に関するデモ推論がありますが、その上に完全なアプリケーションを構築するには適しておらず、ユーザーは独自のバージョンの推論をホストする必要があります。
免責事項:info@kdj.com
提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。
このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。