Step-Video-T2V：开源的高参数文本到视频生成模型

AI开源项目视频生成

一款由阶跃星辰团队开发的开源文本到视频生成模型，拥有 300 亿参数，能够根据文本提示生成长达 204 帧的高质量视频，支持中英双语输入，并通过深度压缩技术和直接偏好优化提升生成效果。

链接直达手机查看

Step-Video-T2V 是一款由阶跃星辰团队开发的开源文本到视频生成模型，拥有 300 亿参数，能够根据文本提示生成长达 204 帧的高质量视频，支持中英双语输入，并通过深度压缩技术和直接偏好优化提升生成效果。
一、主要功能
高质量视频生成：能够生成长达 204 帧、分辨率高达 544×992 的视频，支持多种分辨率和帧率选择。
双语文本支持：配备中英双语文本编码器，可处理多种语言的文本提示。
动态与美学优化：通过 3D 全注意力的 DiT 架构和 Flow Matching 训练方法，生成具有强烈动态效果和高美学质量的视频。
镜头语言控制：支持推、拉、摇、移等多种镜头运动方式，能够生成符合影视运镜要求的视频。
模型加速版本：提供 Step-Video-T2V-Turbo 版本，通过推理步骤蒸馏技术显著提升生成速度。
二、技术原理
Step-Video-T2V 基于深度压缩的变分自编码器（Video-VAE）和扩散 Transformer（DiT）架构，实现了 16×16 的空间压缩和 8× 的时间压缩，显著提高了训练和推理效率。此外，模型采用直接偏好优化（DPO）方法，通过人类偏好数据对生成视频进行优化，进一步提升视频质量。
三、应用场景
创意视频制作：适用于广告制作、短视频创作等领域，帮助生成复杂场景和精细化的创意视频。
动画与影视制作：可用于生成高质量的虚拟角色、动态场景和复杂动作，提升创作效率。
虚拟现实（VR）与增强现实（AR）：创建沉浸式的虚拟环境和互动视频。
游戏开发：生成高质量的过场动画和角色动作。
教育与培训：生成教学视频、模拟实验和场景再现。
四、使用方法
在线体验：用户可以通过跃问视频在线平台直接体验模型。
本地部署：
环境准备：需要 NVIDIA GPU，推荐使用 80GB 内存的 GPU。
安装依赖：
bash
复制
git clone https://github.com/stepfun-ai/Step-Video-T2V.git
conda create -n stepvideo python=3.10
conda activate stepvideo
cd Step-Video-T2V
pip install -e .
pip install flash-attn --no-build-isolation
运行推理脚本：
bash
复制
python api/call_remote_server.py --model_dir where_you_download_dir &
torchrun --nproc_per_node $parallel run_parallel.py --model_dir $model_dir --vae_url $url --caption_url $url --ulysses_degree $parallel --prompt "文本提示" --infer_steps 50 --cfg_scale 9.0 --time_shift 13.0
五、适用人群
视频创作者：用于快速生成创意视频内容。
影视制作人员：提升动画和影视制作的效率。
开发者：可通过模型微调和部署，开发相关应用。
教育工作者：生成教学视频和模拟实验。
六、优缺点介绍
优点：
参数量大（300 亿），生成视频质量高。
支持中英双语输入，适用范围广。
采用开源协议，可自由编辑和商业应用。
缺点：
对硬件要求较高，需要高性能 GPU。
推理速度相对较慢，单次生成时间较长。
分类标签
人工智能、视频生成、创意工具、开源模型、多模态

相关导航

谷歌开源端侧多模态大模型Gemma3n：低资源设备上的AI新突破

该模型专为低资源设备设计，能够在仅需2GB内存的手机、平板和笔记本电脑上流畅运行，并具备强大的多模态处理能力，支持图像、音频、视频和文本等多种输入。

F5-TTS 文本到语音转换工具

一个基于深度学习的文本到语音（Text-to-Speech，简称TTS）转换工具，由SWivid开发，旨在将文本转换为自然听起来的语音。

清影AI视频生成（智谱清言）

清影 AI 视频生成服务是一个基于人工智能技术的创新平台，专注于通过智能算法快速生成高质量的视频内容。该服务以其高效、便捷和个性化的特点，适用于多种行业和场景，满足不同用户的需求。

Textoon：漫画AI，基于文本生成角色图像的AI工具

支持中英文提示词的AI角色生成工具，能够根据用户输入的描述生成具有独特外观和风格的角色图像。

免责声明：本站为个人资讯、工具类学习博客，所发布的一切形式的内容，包括但不限于文字、链接、工具、图片、视频、软件等，仅限用于学习和研究目的，不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，如有侵权请联系本站删除下架，您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。访问和下载本站内容，说明您已同意上述条款。本站为非盈利性站点，本站不贩卖软件，所有内容不作为商业行为，点击、使用相关工具时请注意甄别，谨防上当受骗。咨询联系：yumiok88@gmail.com.