刚刚,

阶跃星辰刚刚开源了其30B参数视频生成模型:Step-Video-T2V,可生成最多204帧的视频,支持中英双语输入

有两个版本
Step-Video-T2V,标准版
Step-Video-T2V-Turbo,经过推理步骤蒸馏的加速版

采用DiT架构配合3D全注意力机制
48层结构,每层48个注意力头
使用DPO技术优化视频质量
支持可变长度视频生成

标准版推荐使用30-50步