阶跃星辰(阶跃视频) Step-Video-TI2V:图生视频的创新之作
3D与动画 AI热门工具 AI短剧 图像生成 学生 视频生成
阶跃星辰(阶跃视频) Step-Video-TI2V:图生视频的创新之作

能够根据文本描述和图像输入生成最长 102 帧的视频,具备运动幅度可控和镜头运动可控等核心特点。

开通正版Chatgpt账号联系QQ:515002667

Step-Video-TI2V 是阶跃星辰(StepFun)推出的开源图生视频(Image-to-Video)生成模型。它基于 300 亿参数训练,能够根据文本描述和图像输入生成最长 102 帧的视频,具备运动幅度可控和镜头运动可控等核心特点。
一、主要功能
图生视频生成:用户提供一张图片和相关文本描述,模型生成连贯视频。
高质量视频输出:支持生成最多 102 帧、5 秒、540P 分辨率的视频。
动态性调节:通过设置运动分数(motion score)控制视频动态性。
镜头运动控制:支持多种运镜方式,如推拉摇移、旋转等。
动漫效果优化:在动漫风格视频生成方面表现出色。
灵活的视频尺寸:支持横屏、竖屏和方屏等多种尺寸。
多语言支持:配备双语文本编码器,支持中英文提示输入。
特效生成能力:初步具备特效生成能力。
二、技术原理
深度压缩的变分自编码器(Video-VAE):实现 16×16 的空间压缩和 8× 的时间压缩。
基于扩散的 Transformer(DiT)架构:包含 3D 全注意力机制。
双语文本编码器:处理中英文提示,生成相符视频。
直接偏好优化(DPO):通过人类偏好数据微调模型。
级联训练策略:包括文本到图像预训练、文本到视频微调等。
系统优化:实现高效的分布式训练。
三、应用场景
动画制作:生成动漫风格视频。
短视频制作:生成具有电影级效果的短视频。
动作教学:生成复杂动态场景。
特效制作:适用于电影、电视剧和游戏特效。
产品展示:生成吸引人的广告视频。
四、使用方法
个人用户:
网页版:访问跃问视频官网,点击【阶跃视频】。
App 体验:下载阶跃AI App,点击【视频创作】。
开发者:
访问 GitHub、Hugging Face、Github-ComfyUI 获取模型及技术报告。
使用 Python API 调用模型。
五、适用人群
动画创作者:需要生成动漫风格视频。
短视频创作者:制作具有创意和吸引力的短视频。
特效师:为影视、游戏等制作特效。
广告从业者:制作产品展示广告。
教育工作者:制作动作教学视频。
六、优缺点介绍
优点:
参数规模大,生成效果好。
运动幅度可控,平衡动态与稳定。
镜头运动控制精准。
动漫效果突出。
支持多尺寸生成。
多语言支持。
缺点:
视频分辨率最高为 540P,对于更高分辨率需求的场景可能受限。
生成视频长度最长为 5 秒,对于需要更长视频的创作可能不够用。
分类标签
视频生成、人工智能、开源模型、动画制作、短视频创作

相关导航