Step-Video-T2V:开源的高参数文本到视频生成模型
AI开源项目 视频生成
Step-Video-T2V:开源的高参数文本到视频生成模型

一款由阶跃星辰团队开发的开源文本到视频生成模型,拥有 300 亿参数,能够根据文本提示生成长达 204 帧的高质量视频,支持中英双语输入,并通过深度压缩技术和直接偏好优化提升生成效果。

开通正版Chatgpt账号联系QQ:515002667

Step-Video-T2V 是一款由阶跃星辰团队开发的开源文本到视频生成模型,拥有 300 亿参数,能够根据文本提示生成长达 204 帧的高质量视频,支持中英双语输入,并通过深度压缩技术和直接偏好优化提升生成效果。
一、主要功能
高质量视频生成:能够生成长达 204 帧、分辨率高达 544×992 的视频,支持多种分辨率和帧率选择。
双语文本支持:配备中英双语文本编码器,可处理多种语言的文本提示。
动态与美学优化:通过 3D 全注意力的 DiT 架构和 Flow Matching 训练方法,生成具有强烈动态效果和高美学质量的视频。
镜头语言控制:支持推、拉、摇、移等多种镜头运动方式,能够生成符合影视运镜要求的视频。
模型加速版本:提供 Step-Video-T2V-Turbo 版本,通过推理步骤蒸馏技术显著提升生成速度。
二、技术原理
Step-Video-T2V 基于深度压缩的变分自编码器(Video-VAE)和扩散 Transformer(DiT)架构,实现了 16×16 的空间压缩和 8× 的时间压缩,显著提高了训练和推理效率。此外,模型采用直接偏好优化(DPO)方法,通过人类偏好数据对生成视频进行优化,进一步提升视频质量。
三、应用场景
创意视频制作:适用于广告制作、短视频创作等领域,帮助生成复杂场景和精细化的创意视频。
动画与影视制作:可用于生成高质量的虚拟角色、动态场景和复杂动作,提升创作效率。
虚拟现实(VR)与增强现实(AR):创建沉浸式的虚拟环境和互动视频。
游戏开发:生成高质量的过场动画和角色动作。
教育与培训:生成教学视频、模拟实验和场景再现。
四、使用方法
在线体验:用户可以通过跃问视频在线平台直接体验模型。
本地部署:
环境准备:需要 NVIDIA GPU,推荐使用 80GB 内存的 GPU。
安装依赖:
bash
复制
git clone https://github.com/stepfun-ai/Step-Video-T2V.git
conda create -n stepvideo python=3.10
conda activate stepvideo
cd Step-Video-T2V
pip install -e .
pip install flash-attn --no-build-isolation
运行推理脚本:
bash
复制
python api/call_remote_server.py --model_dir where_you_download_dir &
torchrun --nproc_per_node $parallel run_parallel.py --model_dir $model_dir --vae_url $url --caption_url $url --ulysses_degree $parallel --prompt "文本提示" --infer_steps 50 --cfg_scale 9.0 --time_shift 13.0
五、适用人群
视频创作者:用于快速生成创意视频内容。
影视制作人员:提升动画和影视制作的效率。
开发者:可通过模型微调和部署,开发相关应用。
教育工作者:生成教学视频和模拟实验。
六、优缺点介绍
优点:
参数量大(300 亿),生成视频质量高。
支持中英双语输入,适用范围广。
采用开源协议,可自由编辑和商业应用。
缺点:
对硬件要求较高,需要高性能 GPU。
推理速度相对较慢,单次生成时间较长。
分类标签
人工智能、视频生成、创意工具、开源模型、多模态

相关导航