近日,Picsart AI Research团队发布了一项创新成果——StreamingT2V模型,该模型能够生成长达2分钟(1200帧)的高质量视频,这一成就超越了先前的Sora模型。StreamingT2V不仅在视频时长上取得了突破,还能够与SVD、animatediff等其他主流模型无缝兼容,为开源视频生成领域带来了革命性的进步。
亮点概述:
- 时长突破: 生成视频时长可达2分钟(1200帧),超越了以往的模型。
- 卓越品质: 提供了优秀的视频质量。
- 兼容性强: 能够与业内其他主流模型实现无缝衔接。
- 开源免费: 便于开发者使用和进行二次开发。
免费在线体验: 【点击此处进入】(请注意,由于在线用户较多,可能需要排队等待)
本地搭建指南:
- 环境准备: 安装Python 3.10和CUDA版本11.6或以上。[下载Python 3.10]、[下载Cuda]。
- 项目克隆: 使用Git克隆开源项目至本地:
git clone https://github.com/Picsart-AI-Research/StreamingT2V.git
cd StreamingT2V/ - 环境配置: 创建并激活新的conda环境,并安装所需依赖:
conda create -n st2v python=3.10
conda activate st2v
pip install -r requirements.txt - FFmpeg安装: 如果您的系统缺少FFmpeg,请通过conda进行安装:
conda install -c conda-forge ffmpeg
- 模型权重下载: 从Hugging Face下载模型权重,并将其放置于
t2v_enhanced/checkpoints
目录下。 - 文本到视频转换: 进入
t2v_enhanced
目录,运行以下命令进行文本到视频的转换:python inference.py --prompt="一只猫在街上奔跑"
如需使用其他基础模型,可添加
--base_model=AnimateDiff
参数。更多选项可通过执行python inference.py --help
查看。 - 图片到视频转换: 在
t2v_enhanced
目录下,运行以下命令将图片转换为视频:python inference.py --image=../__assets__/demo/fish.jpg --base_model=SVD
推理时间对比:
以下是不同基础模型和帧数下的推理时间对比,所有测试均在NVIDIA A100 (80 GB) GPU上进行。当帧数超过80时,采用随机混合技术,其中chunk_size
和overlap_size
的值分别设置为112和32。
- ModelscopeT2V基础模型:
- 24帧:预览40秒,最终结果165秒
- 1200帧:预览约28分钟,最终结果约170分钟
- AnimateDiff基础模型:
- 24帧:预览50秒,最终结果180秒
- 1200帧:预览约28分钟,最终结果约170分钟
- SVD基础模型:
- 24帧:预览80秒,最终结果210秒
- 1200帧:预览约29分钟,最终结果约171分钟
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...