错过了deepseek?全球最大开源视频模型来了,Created in China了
展开
刚刚,
阶跃星辰刚刚开源了其30B参数视频生成模型:Step-Video-T2V,可生成最多204帧的视频,支持中英双语输入
有两个版本
Step-Video-T2V,标准版
Step-Video-T2V-Turbo,经过推理步骤蒸馏的加速版
采用DiT架构配合3D全注意力机制
48层结构,每层48个注意力头
使用DPO技术优化视频质量
支持可变长度视频生成
标准版推荐使用30-50步
